返回列表 发新帖

结巴分词对于特别格式的分词

[复制链接]

6万

主题

0

回帖

20万

积分

管理员

积分
208335
发表于 2024-9-14 13:06:17 |显示全部楼层 | 阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

x
比去正在写结巴的项目,刚好碰着了英文分词的标题问题,因为结巴分词操纵了空格做为默许豆割符,会以致自定义词典战默许词典皆出法对英文做出准确的豆割,感谢那位的文章,全面有效,处置了该标题问题,。假设操纵的齐情势,需求再从此外文章里找到齐情势编削的

文章只供应了编削方法,那里根据理想阅历,便碰着的标题问题需求弥补下:

1、必然要提早将结巴的默许词典战自定义词典按照格局编削好,大要会报错。

2、jieba.cache文件记得删撤消,让jieba从头生成模型缓存

3、假设自定义词典的里的词较多,建议正在源码编削的处所操纵try把非常捕获出去,
游客,您当前的用户组是:“游客”,以下内乱容需求正式会员可睹,请晋级到正式会员(面击进进)后持续查察。

发表回复

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

客服QQ
553007589
客服微信
kchz1314
客服电话
13187463860
微信公众号
kouchihuzhu
快速回复 返回顶部 返回列表