|
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?立即注册
x
结巴分词
中文分词是中文文本处理的一个底子性事情,结巴分词操作截至中文分词。其根底完成原理有三面:
1、基于Trie树构造完成下效的词图扫描,生成句子中汉字统统可以成词状况所构成的有背无环图(DAG)
2、接纳了静态方案查找最大体率路子, 找出基于词频的最年夜切分组开
3、关于已登录词,接纳了基于汉字成词才气的HMM模型,操纵了Viterbi算法
装置(windows状况)
1. 下载:
jieba-0.38 (python2/3)皆可用。
源码下载的地点1:
源码下载的地点2:
2. 解压:
将其解压到python的目次上面:D:\program\python\jieba-0.38
3. 装置:
cmd进进该目次,实行 Python setyp.py install
4. 测试
(只需import jieba胜利则装置胜利)
模游客,您当前的用户组是:“游客”,以下内乱容需求正式会员可睹,请晋级到正式会员(面击进进)后持续查察。 |
|