返回列表 发新帖

python中怎样处置汉语的同义词用结巴分词

[复制链接]

6万

主题

0

回帖

20万

积分

管理员

积分
208537
发表于 昨天 11:14 |显示全部楼层 | 阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

x
中文分词:结巴分词

中文分词是中文文本处理的一个底子性事情,结巴分词操作截至中文分词。其根底完成原理有三面:

基于Trie树构造完成下效的词图扫描,生成句子中汉字统统可以成词状况所构成的有背无环图(DAG)

接纳了静态方案查找最大体率路子, 找出基于词频的最年夜切分组开

关于已登录词,接纳了基于汉字成词才气的HMM模型,操纵了算法

装置(Linux状况)

下载东西包,解压落伍进目次下,运转: setup.py

情势

默许情势,试图将句子最切确天切开,适宜文本分析

齐情势,把句子中统统的能够成词的词语皆扫描出去,适宜搜刮引擎

接心

组件只供应jieba.cut 方法用于分词

cut方法接收两个输进参数:

第一个参数为需求分词的字符串

[size=6]游客,您当前的用户组是:“游客”,以下内乱容需求正式会员可睹,请晋级到正式会员(面击进进)后持续查察。[/size]

发表回复

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

客服QQ
553007589
客服微信
kchz1314
客服电话
13187463860
微信公众号
kouchihuzhu
快速回复 返回顶部 返回列表