摘要:现在全球都在抗击新型冠状病毒肺炎,新闻媒体实时发布疫情新闻,人们时刻关注疫情发展情况。本文基于微博平台,以"新冠肺炎最新动态"、"疫情"、"新冠疫苗"作为关键字,采用爬虫软件爬取微博平台关于新冠疫情近期博文数据。在Python平台对文本数据进行预处理,删除无意义字符,用Jieba库进行精确分词,统计词频并排序,将词频较高的前800个词语用WordCloud生成词云。结果表明,近期微博网民的情绪受到境外疫情影响,对疫情形势的关注度较高。

关键词:新冠肺炎疫情;新浪微博;分词;词云;

原文链接:
https://kns.cnki.net/kcms/detail ... J7MKrLCkQ%25mmd2F6c

我在知网上看到这篇论文,但是我不会编程,想知道集搜客软件可以实现从微博数据采集→分词→词频排序→生成词云图的数据处理链条吗?


举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2021-8-27 11:26

沙发
Fuller 管理员 发表于 2021-8-26 17:33:32 | 只看该作者
这些功能GooSeeker分词和情感分析软件上都有,而且GooSeeker的软件升级很快,不断增加新的功能。在这个帖子我把集搜客分词软件功能分成5大块,其实零零碎碎的功能远不止5项:https://www.gooseeker.com/doc/thread-19022-1-1.html

除此之外,我们建议用Jupyter Notebook在集搜客分词软件生成的结果数据上做进一步的数据挖掘,GooSeeker发布了一系列notebook,都可以下载下来使用,可以作为一个模板,在此基础上增加自己的Python代码。这些notebook罗列在这个帖子中,还会不断补充发布新的notebook:https://www.gooseeker.com/doc/thread-18414-1-2.html
举报 使用道具
板凳
wangyong 版主 发表于 2021-8-26 18:02:35 | 只看该作者
本帖最后由 wangyong 于 2021-8-27 10:45 编辑

现在的集搜客数据管家中不只有爬虫功能,还集成了微博采集工具箱文本分析工具
微博采集工具箱可以免编程,输入链接就能采集到微博数据,非常简单,文本分析工具也是导入数据即可分词和做词云统计
微博采集工具箱使用步骤:

1,在微博关键词搜索工具中输入关键词“新冠疫苗”,选择要采集的时间范围

2,点击启动采集按钮开始采集数据,待采集任务状态变为“已采集”后,点击打包按钮下载数据


后续文本分析的方法,将在数据采集完成后继续更新


举报 使用道具
地板
发誓学好内容分析 金牌会员 发表于 2021-8-26 18:09:06 | 只看该作者
疫情发生已经有两年了,在微博上,历史数据采集全吗?我现在不知道如果采集不全,会不会影响内容分析结果
举报 使用道具
5#
马涌河畔 金牌会员 发表于 2021-8-27 09:42:15 | 只看该作者
使用微博工具箱关键词采集工具,在指定关键词和起始日期后,可以指定最小按1小时的时间跨度来采集。
我观察只要是微博页面上显示出来的,基本上都能爬取到。

举报 使用道具
6#
马涌河畔 金牌会员 发表于 2021-8-27 09:44:10 | 只看该作者
这篇资讯板块上的《基于新浪微博的COVID-19病毒对牙痛患者的影响分析》,介绍了一篇2021年发表在外文期刊(Medicine)上的一篇范文,该文作者使用GooSeeker网络爬虫软件收集了24108篇有关牙痛的微博博文和帖子,分成了4大类,10个子类,分类统计,并按类别进行统计分析。
举报 使用道具
7#
wangyong 版主 发表于 2021-8-27 11:26:20 | 只看该作者
本帖最后由 wangyong 于 2021-8-27 11:27 编辑

文本分析步骤如下:

1,在集搜客文本分析工具中新建分析任务,导入数据
2,导入数据后就会自动分词,并且按照词频倒叙排序

3,在分词结果中人工确认有意义的词语选中,生成词云图



举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-4 18:27