返回列表 发新帖

结巴中文分词工具的安装利用 Python分词教程

[复制链接]

6万

主题

0

回帖

20万

积分

管理员

积分
208496
发表于 2024-9-19 06:04:52 |显示全部楼层 | 阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

x
结巴分词

中文分词是中文文本处理的一个底子性事情,结巴分词操作截至中文分词。其根底完成原理有三面:

1、基于Trie树构造完成下效的词图扫描,生成句子中汉字统统可以成词状况所构成的有背无环图(DAG)

2、接纳了静态方案查找最大体率路子, 找出基于词频的最年夜切分组开

3、关于已登录词,接纳了基于汉字成词才气的HMM模型,操纵了Viterbi算法

装置(windows状况)

1. 下载:

jieba-0.38 (python2/3)皆可用。

源码下载的地点1:

源码下载的地点2:

2. 解压:

将其解压到python的目次上面:D:\program\python\jieba-0.38

3. 装置:

cmd进进该目次,实行 Python setyp.py install

4. 测试

(只需import jieba胜利则装置胜利)

游客,您当前的用户组是:“游客”,以下内乱容需求正式会员可睹,请晋级到正式会员(面击进进)后持续查察。

发表回复

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

客服QQ
553007589
客服微信
kchz1314
客服电话
13187463860
微信公众号
kouchihuzhu
快速回复 返回顶部 返回列表