HuggingFace自然语言处理任务细化的标准研发流程
1、编码工具
编码示意
#加载编码工具
from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained(pretrained_model_name_or_path='bert-base-chinese',
cache_dir=None,force_download=False)
#准备实验数据
sents = [
'你站在桥上看风景',
'看风景的人在楼上看你',
'明月装饰了你的窗子',
'你装饰了别人的梦',
]
#基本的编码函数
out = tokenizer.encode(text=sents[0],text_pair=sents[1],truncation=True,padding='max_length',
add_special_tokens=True,max_length=25,return_tensors=None)
#当句子长度大于max_length时截断
#一律补PAD,直到max_length长度
print(out)
print(tokenizer.decode(out))