返回列表 发新帖

Scikit-Learn机械进修理论:渣滓短信识别

[复制链接]

6万

主题

0

回帖

20万

积分

管理员

积分
208537
发表于 2024-10-23 20:04:49 |显示全部楼层 | 阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

x
查察一下那个短疑数据散的形状:

一共有七十余万条短疑。

对短疑截至分词

文本的分类,根底上是基于词袋模型,也便是一个文本中包罗多少词和各个词的频次。关于英文罢了,其生成的句子空格能够很随便的豆割单词出去,但是中文便得后代止分词处理,也便是将一个完好的中文豆割为一个一个词。

正在中,有第三圆模块——jieba,结巴分词去供应对中文的分词。

我们操纵jieba对短疑的内乱容截至分词。



得到的功效以下:

[/al
游客,您当前的用户组是:“游客”,以下内乱容需求正式会员可睹,请晋级到正式会员(面击进进)后持续查察。

发表回复

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

客服QQ
553007589
客服微信
kchz1314
客服电话
13187463860
微信公众号
kouchihuzhu
快速回复 返回顶部 返回列表