各种huggingface分词器对比

news/2023/5/28 8:40:18

bert-base-chinese

对于dinner这种英语词汇,表现不佳,

tokenizer = AutoTokenizer.from_pretrained("bert-base-chinese")

输出如下,除去收尾的占位符,dinner被分成了3个词,差不多是每两个字符当一个词。这样分词是不合理的。

{‘input_ids’: [101, 9796, 12866, 8180, 102], ‘token_type_ids’: [0, 0, 0, 0, 0], ‘attention_mask’: [1, 1, 1, 1, 1]}

该分词器将dinner分为了[di, nne, r]三组,如何证明?只需要让其处理dinne,可见两者的分词结果前缀相等。

res = tokenizer("dinner")
print(res)
print(tokenizer.decode(res.input_ids))print(tokenizer("dinne"))

输出如下:

{‘input_ids’: [101, 9796, 12866, 8180, 102], ‘token_type_ids’: [0, 0, 0, 0, 0], ‘attention_mask’: [1, 1, 1, 1, 1]}
[CLS] dinner [SEP]
{‘input_ids’: [101, 9796, 12866, 102], ‘token_type_ids’: [0, 0, 0, 0], ‘attention_mask’: [1, 1, 1, 1]}

hfl/chinese-bert-wwm-ext

tokenizer = AutoTokenizer.from_pretrained("hfl/chinese-bert-wwm-ext")res = tokenizer("dinner")
print(res)
print(tokenizer.decode(res.input_ids))print(tokenizer("dinne"))
print(tokenizer("dinn"))

得到基本一致的结果

{‘input_ids’: [101, 9796, 12866, 8180, 102], ‘token_type_ids’: [0, 0, 0, 0, 0], ‘attention_mask’: [1, 1, 1, 1, 1]}
[CLS] dinner [SEP]
{‘input_ids’: [101, 9796, 12866, 102], ‘token_type_ids’: [0, 0, 0, 0], ‘attention_mask’: [1, 1, 1, 1]}
{‘input_ids’: [101, 9796, 9502, 102], ‘token_type_ids’: [0, 0, 0, 0], ‘attention_mask’: [1, 1, 1, 1]}

bert-base-chinese

输出居然和上面的也一样。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.exyb.cn/news/show-4561795.html

如若内容造成侵权/违法违规/事实不符,请联系郑州代理记账网进行投诉反馈,一经查实,立即删除!

相关文章

恒信汽车php,庐阳区恒信汽车博览中心获批省级服务业集聚区

近日,据省发改委透露,庐阳区恒信汽车博览中心获批省级服务业集聚区。集聚区东至蒙城北路,西至高皇路,南至凌湖路,北至耀远路,占地面积540亩,定位中高端汽车品牌,规划有中端合资品牌4…

【CSDN英雄会】恒信彩虹赵中:我的十年CTI技术

英雄会是CSDN旗下针对国内IT技术领域专家展示和交流的平台。通过线下线上的互动形式,为CSDN社区专家提供更多学习、合作、宣传的机会。英雄会后续将在北上广深等国内一二线城市建立分会,各个分会后期将组织技术交流活动。 恰逢11月18日-20日,…

嘉弘恒信|拼多多商品换类目有什么要求?

现在很多新手商家入驻拼多多,但是在商品选择类目的时候可不是那么随意的事情,但是很多小伙伴会选错,今天小编就给各位分享关于拼多多商家修改类目的需要什么资质。一.修改条件1.首先需要店铺已经缴纳了保证金。2.店铺后台没有商品任何上下架的…

arduino 蓝牙 android 小车,从菜鸟到完美掌控arduino蓝牙小车

本帖最后由 血阳 于 2016-11-20 19:11 编辑在写这篇帖子之前,先感谢前段时间,在论坛里,为我耐心解答的大神朋友们,无论我问出什么奇葩的问题,都能为我耐心解答,真心感谢你们。先上视频吧,虽然拍…

极客工坊知识库_极客学校:学习Windows 7 – IP地址基础知识

极客工坊知识库In this edition of Geek School, we are going to look at how IP addressing works. We will also cover some advanced topics like how your PC determines if the device you are communicating with is on the same network as you. We will then finish w…

计网必会:应用层结构体系

文章目录什么是应用层应用层原理P2P模式C/S模式进程的通信原理客户和服务器进程进程发生运输服务类型TCP服务UDP服务服务选择什么是应用层 应用层原理 P2P模式 两台主机相互通信互为服务器,互为主机,可以发现,这样的模式下,如果是…

ask2问答系统新增短信接口

ask2问答系统是一款基于phpmysql进行开发的问答系统,它使用的是thinkphp框架进行开发,二次开发非常简单,今天小编就以新增短信接口为例,一步一步带着大家进行二次开发,我们使用的短信接口是短信宝短信群发平台的短信接…

zabbix配置短信告警

zabbix版本:3.0.7 短信服务商:云片网 首先在云片网添加相应签名和模板 参照格式 签名:xxx告警 模板: 【xxx告警】故障:#status# 服务器:#host# 发生:#triggername# 状态值:#value# 时间:#time#! #告警模板 【xxx告警】恢复:#st…

mysql窗口布局恢复_GitHub - daodaoliang/bbs: 巡云轻论坛系统采用JAVA+MYSQL架构,自适应手机端和电脑端,界面简洁,性能高效。后台数据库备份/还原、全站指定目录打包

巡云轻论坛系统项目介绍巡云轻论坛系统采用JAVAMYSQL架构,自适应手机端和电脑端,界面简洁,性能高效。后台数据库备份/还原、全站指定目录打包、一键自动升级等功能使维护简单方便。系统拥有强大的模板管理功能,布局版块支持设置输…

manifest.json 解析--手机web app开发笔记(三-2)

四、SDK配置和模块权限配置 SDK 就是 Software Development Kit 的缩写,中文意思就是“软件开发工具包”,也就是辅助开发某一类软件的相关文档、范例和工具的集合都可以叫做“SDK”。HbuilderX的SDK配置可视化界面中SDK有地图、登录鉴权、支付、推送、分…

05短信发送验证

文章目录短信验证发送手机验证码功能实现分析前端代码后端代码apps/verifications/views.pyverifications/constants.pyutils/yuntongxun/CCPRestSDK.pyutils/yuntongxun/sms.pyutils/yuntongxun/xml_to_json.py短信验证 发送短信验证码的前提: 用户名,…

Linux常用命令——tftp命令

在线Linux命令查询工具(http://www.lzltool.com/LinuxCommand) tftp 在本机和tftp服务器之间使用TFTP协议传输文件 补充说明 tftp命令用在本机和tftp服务器之间使用TFTP协议传输文件。 TFTP是用来下载远程文件的最简单网络协议,它其于UDP协议而实现。嵌入式linu…

Java 发送短信验证码

Java 发送短信验证码给手机 发送短信验证码其实很简单,就是调用一下第三方的短信API接口,填写参数,发送请求,第三方平台会将信息发送给对方手机当中 介绍 我个人测试所使用的第三方API是“秒嘀”,理由是因为新用户注…

zabbix 短信报警

使用的短信平台是云片网,接口请看官网短信接口API文档,有示例 进入server服务器存放脚本的文件夹,默认路径是 [roottest zabbix]# cat zabbix_server.conf |grep -Ev ^$|^# LogFile/var/log/zabbix/zabbix_server.log LogFileSize0 PidFile/v…

Java利用Redis实现短信验证码功能

本文将详情介绍从Redis阿里云注册短信服务到后端调用等过程。 这个功能比较实用的地方就是注册用户的时候,防止一个用户多个账户注册,因为手机号毕竟有限 短信服务 首先,打开你的阿里云 话不多说,第一步,先充钱 阿…

在ASP.NET MVC下通过短信验证码注册

以前发短信使用过短信猫,现在,更多地是使用第三方API。大致过程是: → 用户在页面输入手机号码 → 用户点击"获取验证码"按钮,把手机号码发送给服务端,服务端产生几位数的随机码,并保存在某个地方…

用JSON备份还原短信时特殊字符的处理

今天捣鼓一个短信备份还原的功能,用json格式来做。但是由于短信都是各式各样的字符组成。所以要是里面有和json一样的格式特殊字符的时候,就会出错导致恢复不了。 就想下面那样: 要是body那一部分,也就是我们短信的内容里面包含着…

【Ps问题】PS旋转功能会让图片乱飞的解决方法

问题描述:PS软件的旋转功能【R】每次旋转后图片都不在视口中心 解决办法: 首选项-工具-勾选过界 这样就会使旋转以窗口中心为圆心,不会乱飞

SpringBoot+Vue项目图书个性化推荐系统

文末获取源码 开发语言:Java 框架:springboot JDK版本:JDK1.8 服务器:tomcat7 数据库:mysql 5.7/8.0 数据库工具:Navicat11 开发软件:eclipse/myeclipse/idea Maven包:Maven3.3.9 浏…

PS 2020版本放大工具无法鼠标左右拖动精细放大的解决方案

今天突然发现PS的缩放工具没办法通过左右拖动细微缩放了,正常情况下,只需要重新打开选项栏中的“细微缩放”选项即可(下图)。 但是我这次细微缩放却不可选,在网上找到的解决方案是:“编辑”-“首选项”-“性…