HuggingFace自然语言处理任务细化的标准研发流程
2023-12-26T03:50:40.png

1、编码工具

编码示意
2023-12-26T03:53:10.png

#加载编码工具
from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained(pretrained_model_name_or_path='bert-base-chinese',
cache_dir=None,force_download=False)
#准备实验数据
sents = [
'你站在桥上看风景',
'看风景的人在楼上看你',
'明月装饰了你的窗子',
'你装饰了别人的梦',
]
#基本的编码函数
out = tokenizer.encode(text=sents[0],text_pair=sents[1],truncation=True,padding='max_length',
add_special_tokens=True,max_length=25,return_tensors=None)
#当句子长度大于max_length时截断
#一律补PAD，直到max_length长度
print(out)
print(tokenizer.decode(out))

hauggingface学习

1、编码工具

欢迎使用 Typecho

docker常用命令

conda的常用命令

兼容python和anaconda

安装anaconda

openai API实现多轮对话

docker部署flask应用

校园闲置物品交易平台

模板

pip换源

hauggingface学习