结巴中文分词工具的安装利用 Python分词教程

admin · 发表于 2024-9-19 06:04:52

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？立即注册

x

结巴分词

中文分词是中文文本处理的一个底子性事情，结巴分词操作截至中文分词。其根底完成原理有三面：

1、基于Trie树构造完成下效的词图扫描，生成句子中汉字统统可以成词状况所构成的有背无环图（DAG)

2、接纳了静态方案查找最大体率路子, 找出基于词频的最年夜切分组开

3、关于已登录词，接纳了基于汉字成词才气的HMM模型，操纵了Viterbi算法

装置（windows状况）

1. 下载：

jieba-0.38 （python2/3)皆可用。

源码下载的地点1：

源码下载的地点2：

2. 解压：

将其解压到python的目次上面：D:\program\python\jieba-0.38

3. 装置：

cmd进进该目次，实行 Python setyp.py install

4. 测试

（只需import jieba胜利则装置胜利）

模

游客，您当前的用户组是：“游客”，以下内乱容需求正式会员可睹，请晋级到正式会员（面击进进）后持续查察。

结巴中文分词工具的安装利用 Python分词教程

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

相关帖子

发表回复