本帖最后由 xandy 于 2018-4-23 17:23 编辑

压缩中包含的数据为:
  • 知网微博数据挖掘研究分析-“论文主题”字段数据


知网微博数据挖掘研究分析-论文主题数据.zip

161.3 KB, 阅读权限: 1, 下载次数: 4549

举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2019-4-24 09:39

沙发
lixueyun 新手上路 发表于 2019-1-9 12:31:09 | 只看该作者
怎么下载啊
举报 使用道具
板凳
Fuller 管理员 发表于 2019-1-9 12:35:08 | 只看该作者

想下载什么内容?
举报 使用道具
地板
lixueyun 新手上路 发表于 2019-1-9 18:21:23 | 只看该作者
Fuller 发表于 2019-1-9 12:35
想下载什么内容?

请教一下 有分词系列的教程吗

举报 使用道具
5#
Fuller 管理员 发表于 2019-1-9 19:58:29 | 只看该作者
lixueyun 发表于 2019-1-9 18:21
请教一下 有分词系列的教程吗

集搜客的分词工具在这里:https://www.gooseeker.com/res/softdetail_13.html
这个网页上有介绍,很容易使用,不用看教程。
分词工具分词过程是自动的,只要导入文件就启动分词。分完词,需要你手工选择用于分析的特征词,相当于划定一个分析范围。如果不选特征词也行,相当于要分析所有词。但是在量化计算的时候,没有必要使用所有词,因为很多词是没有意义的,而且很多软件也算不了那么多词,通常选择200多个就够了,按照词频的排序,把前200个有意义的词选出来,就能导出一个词矩阵,每一条内容对应哪几个词,就在这个矩阵中。

提到矩阵,我们说“一条”对应哪些词,这就隐含了一层意思:用词矩阵适合分析短文本,比如,用户评论,一条条的评论,看看分别含有哪些词。如果是长文本,甚至就是一个文本文件导入到分词工具中,那么生成矩阵没有意义,不叫矩阵,因为只有一行。那样只能做些基于词频的分析,比如,生成一个词云图之类的
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-11-22 15:01