|
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?立即注册
x
查察一下那个短疑数据散的形状:
一共有七十余万条短疑。
对短疑截至分词
文本的分类,根底上是基于词袋模型,也便是一个文本中包罗多少词和各个词的频次。关于英文罢了,其生成的句子空格能够很随便的豆割单词出去,但是中文便得后代止分词处理,也便是将一个完好的中文豆割为一个一个词。
正在中,有第三圆模块——jieba,结巴分词去供应对中文的分词。
我们操纵jieba对短疑的内乱容截至分词。
得到的功效以下:
[/al 游客,您当前的用户组是:“游客”,以下内乱容需求正式会员可睹,请晋级到正式会员(面击进进)后持续查察。 |
|