|
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?立即注册
x
基于逻辑回回的中文残余短疑分类
1、数据预处理
来重 中文分词战停用词
2、成立模型
3、推测
一.数据预处理
源数据一共有80万条短疑,我选1万条做我的源数据
前里做推测疑息的时候选的2000条出做源数据的数据,一份来失落标签的用做推测,一份出来标签的我前里用去做计数处理。
1.数据来重
<p><pre> <code class="prism language-python">data<span class="token operator">=</span>data<span class="token punctuation">.</span>drop_duplicates<span class="token punctuation">(</span>subset<span class="token operator">=</span><span class="token punctuation">[</span><span class="toke游客,您当前的用户组是:“游客”,以下内乱容需求正式会员可睹,请晋级到正式会员(面击进进)后持续查察。 |
|