|
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?立即注册
x
颠末连络jieba分词劣化snowNLP文本豪情阐发成果
择要:
本文为了颠末增长停用词战用户自定义词库,劣化snownlp分词成果,从而提拔snownlp豪情断定准确率。
增长停用词较简朴:对snownlp中-normal文件夹中-stopwords.txt截至弥补
增长用户自定义词库(主要为了辨认短语名词战承认短语,制止过分分词):
连络jieba中的 jieba.load_userdict(‘words.txt’) 导进本人准备的经常使用词词典;再用jieba.lcut()交换snownlp本来的seg.seg()分词方法
snwoNLP是python中特地针对中文的豪情阐发包,操纵时也较为简朴。
<p><pre> <code class="prism language-javascript"><span class="token keyword">import</span> snownlp
<span class="token fun游客,您当前的用户组是:“游客”,以下内乱容需求正式会员可睹,请晋级到正式会员(面击进进)后持续查察。 |
|