本篇研究论文范例,以微博数据作为分析内容,研究爬取了新冠疫情期间的虚假信息及疫情相关的微博数据,利用自动文本分析方法分析虚假信息的主题分布;然后结合时间线索和格兰杰因果分析,展示了虚假信息相关主题微博的时滞性扩散特点;最后,分析了不同主题下虚假信息、相关微博和负面情感三者的关系。 自从GooSeeker微博数据采集工具箱推出后,我们观察到使用这个工具收集微博数据进行研究的同学数量一直维持在高位,刚刚过去的这个周末,就有不少同学在技术交流群和社区论坛上和我们交流微博工具箱的使用心得。 除了微博工具箱,其实GooSeeker还提供了很多微博相关的快捷采集,这些快捷采集可以和微博工具箱配合使用: 同时我们会不定期发布关于微博数据采集的经验分享,和基于微博数据的研究分析案例。上周的2篇文章介绍了微博签到地有关的快捷采集: 2. Jupyter Notebook怎样获取微博签到地的经纬度并在地图上显示 今天分享给大家的是一个使用GooSeeker收集微博评论进行骗保相关分析的案例。 1,本研究范例简介 标题:突发公共卫生事件中虚假信息的时滞性扩散与情感关联分析 作者: 翟羽佳1,2 过南杉2 阎嘉琪2 1. 武汉大学信息管理学院 2. 天津师范大学管理学院 关键词:突发公共事件;COVID-19;虚假信息;时滞性;负面情感;信息扩散; 基金资助:国家社会科学基金国家应急管理体系建设研究专项项目“基于信息聚合和知识发现的突发重大公共卫生事件风险研判与决策协同机制研究”(20VYJ062); 摘要: 【目的/意义】研究分析了突发公共卫生事件演化过程中社交媒体虚假信息的产生及时滞性扩散特征,试图揭示虚假信息以及负面情感之间的相关关系,为疏通正确的防疫信息与民众之间的沟通渠道提供帮助。 【方法/过程】研究爬取了新冠疫情期间的虚假信息及疫情相关的微博数据,利用自动文本分析方法分析虚假信息的主题分布;然后结合时间线索和格兰杰因果分析,展示了虚假信息相关主题微博的时滞性扩散特点;最后,分析了不同主题下虚假信息、相关微博和负面情感三者的关系。 【结果/结论】虚假信息与疫情相关内容增长趋同,但不同主题信息的扩散力不同,甚至出现相反的时滞扩散效果;引导公众产生负向情感的虚假信息在一定程度上会引发公众的大规模讨论。 【创新/局限】从时滞性扩散的角度解读突发公共卫生事件下不同主题虚假信息的演化特征,为虚假信息分析与治理提供了新的视角。但数据采集存在局限,虚假信息的传播渠道太过广泛,相关信息难以收集完整。 2,微博数据文本分析相关软件 写论文需要收集微博数据,一般我们推荐同学们使用GooSeeker微博数据采集工具箱,多个工具互为配合,统一的界面设计,使用起来很方便。 2.2 中文分词和情感分析 可以使用GooSeeker文本分词和情感分析软件,提供的功能:中文分词,词频统计,关键词提取,人工筛选,词云图,社交网络图,情感分析 3,本研究论文范例相关知识点 3.1 虚假信息主题识别 本文使用自动内容分析法(Automatic Content Analysis)对疫情虚假信息的主题进行归纳。使用 sklearn 工具提取文本的 TF*IDF 特征,将文本结果转化为特征向量。TF*IDF可以帮助我们过滤掉不相关的常见词,同时保留文本中的重要词。使用 K均值聚类来探索这些虚假信息中涉及的主题。 关于如何在JupytorNotebook中进行sklearn库 和TF-IDF算法的实践,可以参考这2篇文章: 1. 新闻内容分词后在Jupyter Notebook中使用TF-IDF算法提取关键词 2. Jupyter Notebook使用sklearn的TF-IDF算法计算关键词权重 4,本研究论文范例结论和讨论 疫情的持续发酵使社会舆论在社交媒体中的传播形式更加错综复杂和难以把握,在大众自身对事件缺乏控制的情况下,恐惧和愤怒成为信息交流中涉及的主要情感。虚假信息的传播无形中会放大人们的负面情感,使人们把这种情感排解出体外的需求更加强烈,促使虚假信息的传播速度更快,毫无根据的猜测就会像病毒一样传播开来,更加容易产生群体恐慌和不可控的社会事件。 本研究仍存在一些不足之处,由于虚假信息发布渠道太过广泛,难以完整收集,本文通过提取权威辟谣平台中的辟谣信息进行替代分析,尽可能收集更为完整的虚假信息样本。并且,虚假信息传播到辟谣之间存在一定时间差,在此之间可能产生了一些未被采集到的虚假信息所激起的讨论。未来研究也将收集更加全面、广泛的虚假信息数据和公众讨论内容,探索和理解在突发公共卫生事件中,公众传播的内容和扩散机理。 |