HuggingFace自然语言处理任务细化的标准研发流程
2023-12-26T03:50:40.png

1、编码工具

编码示意
2023-12-26T03:53:10.png

#加载编码工具
from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained(pretrained_model_name_or_path='bert-base-chinese',
cache_dir=None,force_download=False)
#准备实验数据
sents = [
'你站在桥上看风景',
'看风景的人在楼上看你',
'明月装饰了你的窗子',
'你装饰了别人的梦',
]
#基本的编码函数
out = tokenizer.encode(text=sents[0],text_pair=sents[1],truncation=True,padding='max_length',
add_special_tokens=True,max_length=25,return_tensors=None)
#当句子长度大于max_length时截断
#一律补PAD,直到max_length长度
print(out)
print(tokenizer.decode(out))
最后修改:2023 年 12 月 26 日
如果觉得我的文章对你有用,请随意赞赏