|
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?立即注册
x
结巴分词介绍
如今开源的中文分词东西,有IK、MMseg4j、THULAC、Ansj、Jieba、HanLP等,此中比去借正在更新并庇护的,也是目前分词成果比较优良的要属于Ansj、Jieba、HanLP了。
之前我写过Ansj分词器的介绍阐明专客,如今细道一下Jieba分词的详细思路及其实现历程。
结巴分词主页
结巴分词的github主页地点是:(python版),本做者fxsjy是用python写的,厥后有网友写了其他编程语言的版本。
目前民圆页里举荐的java版结巴分词地点是:(java版),那个java版的结巴分词只需针对搜刮引擎分词的服从,我正在那个之上做了劣化改进,并增长了词性标记服从后,曾经pull request 给做者piaolingxue了。
我改进后的结巴分词的java版地点是: ,该项目借正在[size=6]游客,您当前的用户组是:“游客”,以下内乱容需求正式会员可睹,请晋级到正式会员(面击进进)后持续查察。[/size] |
|