返回列表 发新帖

结巴包的利用自己探讨【总共5点】

[复制链接]

6万

主题

0

回帖

20万

积分

管理员

积分
202066
发表于 前天 20:32 |显示全部楼层 | 阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

x
截至分词的各种调试:

1.分词

第一步,最本初的分词法,jieba.cut 分词目标:从txt中导进语言,然后用结巴分词

<p><pre>    <code class="language-python">import jieba
f=open(&#39;d://shuju.txt&#39;,&#39;r&#39;)
test_sent=f.read()
words=jieba.cut(test_sent)
print(&#39;/&#39;.join(words))</code></pre></p>
.join的方法正在底子教程内里有阐明,是根据切分的处所减上前里念减的东西【那里为/】

第一步得出的谜底以下:



我们能够发明,有一些词分错了。好比:改动传统 本来该当是两个词,被分白一个词了 年夜数据本来
游客,您当前的用户组是:“游客”,以下内乱容需求正式会员可睹,请晋级到正式会员(面击进进)后持续查察。

发表回复

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

客服QQ
553007589
客服微信
kchz1314
客服电话
13187463860
微信公众号
kouchihuzhu
快速回复 返回顶部 返回列表