返回列表 发新帖

python中文分词工具:结巴分词jieba

[复制链接]

6万

主题

0

回帖

20万

积分

管理员

积分
208335
发表于 6 小时前 |显示全部楼层 | 阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

x
结巴分词jieba 特性

撑持三种分词情势:

切确情势,试图将句子最切确天切开,适宜文本分析;

齐情势,把句子中统统的能够成词的词语皆扫描出去, 速率非常快,但是不克不及处置歧义;

搜刮引擎情势,正在切确情势的底子上,对少词再次切分,前进召回率,适合用于搜刮引擎分词。

撑持繁体分词

撑持自定义词典

算法

基于前缀词典完成下效的词图扫描,生成句子中汉字统统可以成词状况所构成的有背无环图 (DAG)

接纳了静态方案查找最大体率路子, 找出基于词频的最年夜切分组开

关于已登录词,接纳了基于汉字
游客,您当前的用户组是:“游客”,以下内乱容需求正式会员可睹,请晋级到正式会员(面击进进)后持续查察。

发表回复

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

客服QQ
553007589
客服微信
kchz1314
客服电话
13187463860
微信公众号
kouchihuzhu
快速回复 返回顶部 返回列表