当前位置: 首页 > news >正文

水产食品企业网站模板链网

水产食品企业网站模板,链网,手机版网站有必要吗,苏州有什么好玩的景点BertTokenizerFast类 1、特点 速度快:底层使用Rust实现,比纯python的BertTokenizer快得多(尤其是批量处理的时候),且支持多线程使用。 功能一致:与BertTokenizer的API完全兼容,可以直接替换使用…

BertTokenizerFast类

1、特点

        速度快:底层使用Rust实现,比纯python的BertTokenizer快得多(尤其是批量处理的时候),且支持多线程使用。

        功能一致:与BertTokenizer的API完全兼容,可以直接替换使用。支持所有的BERT变体。

        额外功能:提供更丰富的后处理选项(如截断、填充的精细控制)。支持直接返回token_type_ids、attention_mask等张量。

2、基本用法

from transformers import BertTokenizerFast# 初始化分词器,以chinese-bert-wwm模型为例
tokenizer = BertTokenizerFast.from_pretrained('chinese-bert-wwm')# 单条文本分词
text = ‘你好,明天!’
encoded_input = tokenizer(text, return_tensors='pt')  # 返回pytorch张量
"""
输出结果:
{'input_ids': tensor([[101, 3209, 1921, 8024, 872, 1962, 8013, 102]]),'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 0, 0]]),'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1]])
}
"""
# 批量文本分词
texts = ['明天,你好!', '你好,明天!']
batch_encoded = tokenizer(texts, padding=True, truncation=True, return_tensors='pt')
"""
输出结果:
{'input_ids': tensor([[101, 3209, 1921, 8024, 872, 1962, 8013, 102], [101, 872, 1962, 8024, 3209, 1921, 8013, 102]]),'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0]]),'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1, 1, 1]])
}
"""

3、关键参数

参数名作用
padding=True自动填充到批次中最长序列长度
trunction=True自动截断到模型最大长度(512)
return_tensors='pt'返回pytorch张量(可选"tf"为TensorFlow或"np"为numpy)
max_length=128显式指定最大长度
add_special_tokens是否添加[cls]和[sep],默认为True
return_offsets_mapping返回每个token在原始文本中的字符集起始和结束位置
skip_special_tokens在解码(将Token ID转回文本)时跳过特殊token(如[CLS]、[SEP]、[PAD]等),默认值为False,设为True后输出更干净的文本

 4、自定义tokens

tokenizer.add_tokens(['亚马逊', '速卖通'])  # 添加新的token
model.resize_token_embeddings(len(tokenizer))  # 调整模型嵌入层

5、偏移量映射(用于命名实体识别任务)

encoded_input = tokenizer(text, return_offsets_mapping=True)
print(encoded_input["offset_mapping"])  # 输出每个token在原文中的位置

6、快速解码

decoded_text = tokenizer.decode(encoded_input["input_ids"][0], skip_special_tokens=True)
http://www.wooajung.com/news/21182.html

相关文章:

  • 哪些网站是做货源的东莞网站优化
  • 网站上文章字体部分复制怎么做百度问问
  • 网页设计实训报告的内容怎么写网站推广优化方案
  • 南京外贸网站建站哪个公司要做网络推广
  • 时尚类网站建设推广信息哪个平台好
  • 无锡做网站公司哪家好计算机培训机构哪个最好
  • 会员卡管理系统哪里买网站seo
  • WordPress设置作者信息济南优化网站的哪家好
  • 北京音乐制作公司长沙官网seo收费标准
  • 苹果直播软件下载网站软文写作技巧
  • 给素材网站做素材方法企业推广网站有哪些
  • 域名查询 站长查询常州seo
  • 洛阳建设网站制作做seo有什么好处
  • 免费网站如何做推广江苏疫情最新消息
  • wordpress复制到剪贴板seo咨询茂名
  • 网页设计与网站的关系武汉网站seo德升
  • 什么是网络营销它与传统营销相比有何特征seo优化 搜 盈seo公司
  • roseonly企业网站优化品牌推广方案ppt
  • 网站 术语上海seo公司哪个靠谱
  • 广东海外建设监理有限公司网站win7优化教程
  • 做淘宝用什么批发网站想要导航页面推广app
  • 网站提高收录和访问量项目推广方案
  • 四川省送变电建设有限责任公司网站竞价推广教程
  • 16岁做分期网站营销策略有哪些方法
  • 百度搜索自己的网站百度商城app下载
  • 南京网站搜索优化免费建站软件
  • tomcat网站开发外贸平台有哪些?
  • 百度seo多少钱一个月搜索引擎优化排名案例
  • 网站建设收费标准效果应用宝aso优化
  • 网站开发课程软件中国企业培训网