告别2023进入崭新的2024年,在此祝广大写论文搞研究的小伙伴们,在新的一年学业进步,收获更多科研的硕果! 今天和大家分享的这篇范例,选取新浪微博平台,搜索关键词为“病毒变异”,通过网络爬虫软件爬取微博博文样本数据。结合博文数量的时序特征和生命周期理论进行周期划分,利用LDA模型、BERT-BiLSTM-Attention模型构建研究框架,探究不同周期的舆情主题差异及情感演化。 关于LDA模型,我们曾经使用实际的微博数据和电商数据,在Jupyter Notebook中使用python进行过算法实验,也发布过其它有关使用LDA的范例,有兴趣的同学可以查阅: 1) 微博内容分词并手工选词后用JupyterNotebook做LDA主题分析 2) 分析电商评论发现消费者话题-LDA主题分析篇(Jupyter Notebook) 3) 基于LDA模型的新冠疫情微博用户主题聚类图谱及主题传播路径研究 4) 基于 BiLSTM-CRF 的政府微博舆论观点抽取与焦点呈现 1,范例简介 标题: 基于LDA与BERT-BiLSTM-Attention模型的突发公共卫生事件网络舆情演化分析 作者: 曾子明 陈思语 作者单位: 1. 武汉大学信息管理学院 2. 武汉大学信息资源研究中心 关键词:网络舆情;演化分析;LDA;BERT-BiLSTM-Attention;病毒变异; 发表日期:2023-04 基金资助: 国家社会科学基金项目“面向突发公共卫生事件的网络舆情时空演化与决策支持研究”的成果,项目编号:21BTQ046 摘要: [目的/意义] 探索突发公共卫生事件网络舆情发展周期中的主题和情感演化历程,研究影响网民情感波动的因素,为网络舆情有效管控提供决策支持。 [方法/过程] 结合博文数量的时序特征和生命周期理论进行周期划分,利用LDA模型、BERT-BiLSTM-Attention模型构建研究框架,探究不同周期的舆情主题差异及情感演化。 [结果/结论] 线下病毒变异演化和线上舆情主题与情感演化具有关联性。在新型冠状病毒变异语料库中,BERT-BiLSTM-Attention模型分类准确率为0.8817,F1值为0.8778,其在情感演化分析上具有优越性。构建的“数据采集预处理、舆情周期划分、主题演化和情感演化到获得策略输出”的全过程分析框架对相关部门有效引导网络舆情提供了决策支持和理论支撑,BERT-BiLSTM-Attention模型能更准确地进行情感分类。 [局限] 数据源单一,面向时间维度上的演化历程未进行时空结合的演化分析。 文章目录 0 引言 1 研究现状 1.1 情感分析方法研究现状 1.2 突发公共卫生事件网络舆情研究现状 2 研究设计 2.1 研究框架设计 2.2 研究方法与步骤 2.2.1 生命周期划分 2.2.2 LDA模型的主题演化分析 2.2.3 BEBA模型的情感演化分析 3 实证分析 3.1 数据采集和预处理 3.2 生命周期划分 3.3 主题演化分析 3.3.1 主题个数选择 3.3.2 LDA主题演化 3.3.3 基于舆情主题演化的管控策略 3.4 情感演化分析 3.4.1 情感分类模型评估 3.4.2 情感演化分析及管控策略 4 结论与展望 2,研究方法、相关知识点、工具和数据来源 2.1 研究方法和步骤 1) 数据采集与预处理。获取病毒变异期间的原创博文,进行数据预处理。数据选取新浪微博平台,搜索关键词为“病毒变异”,通过网络爬虫软件爬取数据,经预处理后一共35125条。 2) 舆情周期划分。根据生命周期理论,结合数据时序特征和线下病毒变异演化详情划分舆情周期。 3) 主题演化和情感演化。采用 LDA 模型对舆情数据进行主题挖掘,获取主题特征协助特征提取,从而采用BEBA 模型分析舆情各阶段的情感特征和演化规律,并证明 BEBA 模型具有优越性。 4) 决策输出。结合主题和情感演化分析获得管控策略,支撑决策输出。 2.2 BERT-BiLSTM-Attention模型 2.2.1 BERT模型 全称是Bidirectional Encoder Representations from Transformers,是谷歌发布的一种预训练语言表示的新方法。BERT模型的工作原理与大多数Imagenet深度学习模型的工作方式相同。 首先,在大型语料库(Masked LM任务)上训练BERT模型,然后通过在最后添加一些额外的层来微调我们自己的任务的模型,该模型可以是分类,问题回答或NER等。 关于BERT模型更详细的解释可以参考知乎文章《图解BERT:通俗的解释BERT是如何工作的》. 2.2.2 BiLSTM BiLSTM是Bi-directional Long Short-Term Memory的缩写,用于对自然语言进行情感分类,是由前向LSTM与后向LSTM组合而成。两者在自然语言处理任务中都常被用来建模上下文信息。更详细的解释参考知乎文章《详解BiLSTM及代码实现》 2.2.3 Attention Model Attention Model(注意力模型) 模拟的是人脑的注意力模型,举个例子来说,当我们观赏一幅画时,虽然我们可以看到整幅画的全貌,但是在我们深入仔细地观察时,其实眼睛聚焦的就只有很小的一块,这个时候人的大脑主要关注在这一小块图案上,也就是说这个时候人脑对整幅图的关注并不是均衡的,是有一定的权重区分的。这就是深度学习里的Attention Model的核心思想。更详细的介绍参考知乎《深度学习之Attention Model(注意力模型)( https://zhuanlan.zhihu.com/p/443885245 )》 2.3 研究所需的微博样本数据的收集和处理 本范例选取新浪微博平台,通过网络爬虫软件爬取数据,设置检索关键词为 “病毒变异”,时间区间为 “2021 年11 月 9 日 0 时—2022 年 3 月 5 日 23 时”,获 取 博 文 的“用户 ID”“用户地址”“昵称”“发布来源”“发布时间”“文本内容” “转发” “点赞” “评论” “获取时间”及“页面地址”。经过数据预处理,共计 35215 条数据。 数据由人工进行情感标注,使用布尔值区分,其中 0 代表消极,1 代表中性,2 代表积极。标注过程邀请 3 位相关专业学生对舆情数据打分,依照多数选择确定标注值,若选择均不同则标注为 1。然后进行分词和停用词处理。 那么对于搞研究的同学来说,怎样使用网络爬虫软件获取微博博文相关的数据,用于相关分析研究呢? 我们推荐使用集搜客微博采集工具箱,集搜客微博快捷采集工具,输入网址或关键词,启动采集,采集完成后导出excel即可。 比如要获取关键词为 “病毒变异”,时间区间为 “2021 年11 月 9 日 0 时—2022 年 3 月 5 日 23 时”微博博文,我们点击微博工具箱的微博“关键词搜索结果”工具( /res/softdetail_4.html ),添加任务,启动采集即可。等采集完成后点击“打包”按钮,然后导出excel数据表。 采集下来的微博博文文本,推荐使用集搜客文本分词和情感分析软件进行自动分词。除了自动分词,还可以进行情感分析,按研究类型进行人工选词,生成词云图,进行社交网络分析等等。 2.4 本范例的结论与展望 本文构建的从 “数据采集预处理、舆情周期划分、主题演化和情感演化到策略输出”的全过程分析框架,能揭示病毒变异舆情发展周期中各阶段主题的讨论内容和情感极性发展趋势。结合对照模型,BERT-BiLSTM-Attention情感分析模型具有优越性。根据演化结果,主题演化中舆情发展各阶段主题探讨的内容侧重点存在差异,情感演化中各阶段情感倾向分布演化趋势波动较大,且情感倾向与主题分布具有关联性。研究结论为相关部门在处理突发公共卫生事件时有效引导和控制舆情的实践工作提供参考。 本文存在一些不足,如数据的时间跨度相对不够长,不能深层次地关注病毒变异波动期的舆情演 化。数据源局限于微博,较为单一。在今后研究中可增加数据源和扩大数据集,融合主题和情感的协同分析,探究不同主题下的情感演化,增加空间维度的演化分析,探索网络舆情动态演化与线下病毒变异之间的时空耦合特征和关联,为相关部门实现线上舆情和线下病毒变异的立体联动和同步治理提供更全面的决策支持。 |