准确把握公众微博评论中所反映的公众观点并总结舆论焦点,有助于及时获取和引导社会舆情态势,对政府公信力、快速响应能力及执行力提升具有支撑作用。今天分享给大家的这篇范文,该文作者针对当前政府微博评论社会功能发挥的现实要求和其文本特征挖掘的技术需求,从基于深度学习的文本智能语义理解和挖掘出发,提出了适用的细粒度四元组标注策略,构建了政府微博评论观点抽取与焦点呈现的深度学习模型 POF-BiLSTM-CRF,即通过细粒度标注策略确定、Word2vec训练词向量、BiLSTM评论特征学习进行标签及其概率输出、CRF学习上下文实现微博评论标注优化,以及观点聚类和主题词提取后最终呈现舆论焦点。针对“中国警方在线”微博评论的实验表明,文章所提研究框架和模型能够有效进行舆论观点的智能化提取,为快速把握公众观点及为政府决策提供了参考。 收集微博使用什么工具? 对于大多数搞研究写论文的同学来说,需要一款使用简单,不需要额外学习,根据简单的指引就可以启动采集获取各种微博数据的微博工具。GooSeeker微博数据采集工具箱很适合同学们搞研究写论文收集微博数据,大量文科同学在通过它收集研究需要的微博博文,微博关键词搜索,微博评论和转发,微博博主详情,微博话题内容,微博粉丝和关注者等数据。我们观察到使用这个工具收集微博数据进行研究的同学数量一直维持在高位,刚刚过去的这个周末,就有不少同学在技术交流群和社区论坛上和我们交流微博工具箱的使用心得。 除了微博工具箱,GooSeeker还提供了很多微博相关的快捷采集,这些快捷采集可以和微博工具箱配合使用: 同时我们会不定期发布关于微博数据采集的分享,和基于微博数据的研究分析案例: 1. 基于主题-情感融合分析的突发公共卫生事件网络舆情演化研究 4. 微博内容分词并手工选词后用JupyterNotebook做LDA主题分析 1,范文信息介绍 标题:基于BiLSTM-CRF的政府微博舆论观点抽取与焦点呈现 作者:胡吉明1,2 郑翔1,2 程齐凯1,2 张岩3 作者单位: 1. 武汉大学信息管理学院 2. 武汉大学信息检索与知识挖掘研究所 3. 武汉大学测绘遥感信息工程国家重点实验室 关键词:政府微博评论;舆论观点抽取;深度学习模型;BiLSTM-CRF模型;POF-BiLSTM-CRF模型; 基金资助:国家自然科学基金面上项目“基于深度学习的政务新媒体互动内容摘要自动生成与情感分析模型研究”的成果,项目编号:71874125; 摘要: [目的/意义]准确把握公众微博评论中所反映的公众观点并总结舆论焦点,有助于及时获取和引导社会舆情态势,对政府公信力、快速响应能力及执行力提升具有支撑作用。 [方法/过程]文章针对当前政府微博评论社会功能发挥的现实要求和其文本特征挖掘的技术需求,从基于深度学习的文本智能语义理解和挖掘出发,提出了适用的细粒度四元组标注策略,构建了政府微博评论观点抽取与焦点呈现的深度学习模型POF-BiLSTM-CRF,即通过细粒度标注策略确定、Word2vec训练词向量、BiLSTM评论特征学习进行标签及其概率输出、CRF学习上下文实现微博评论标注优化,以及观点聚类和主题词提取后最终呈现舆论焦点。 [结果/结论]针对"中国警方在线"微博评论的实验表明,文章所提研究框架和模型能够有效进行舆论观点的智能化提取,为快速把握公众观点及为政府决策提供了参考。 文章目录 1 政府微博舆情研究的技术演进 2 基于深度学习的政府微博舆论焦点挖掘模型 2.1 标注策略确定与实现 1)基于scrapy框架的微博评论采集。 2)基于规则与词典的微博评论预处理。 3)基于要素分析的微博评论标注策略确定。 2.2 观点抽取模型构建 1)基于Word2vec降维的词向量表示。 2)基于BiLSTM评论特征学习的标签及其概率输出。 3)基于CRF上下文学习的微博评论标注优化。 2.3 基于观点聚类的舆论焦点呈现 1)基于K-means的评论观点聚类。 2)基于TF-IDF主题词提取的焦点呈现。 3 公安微博评论观点提取与舆论焦点呈现 3.1 公安微博评论标注 3.2 公安微博评论观点抽取模型训练 3.2.1 公安微博评论文本的词向量集构建 3.2.2 公安微博评论观点抽取模型实现 1)实验参数设置。 2)模型评价。 3)常用模型对比。 3.3 公安微博评论舆论焦点呈现 4 结论与展望 2,本范例主要研究方法和相关知识 2.1 文中提到的BilSTM-CRF是什么 ? BilSTM-CRF是一种深度学习的模型,BilSTM和CRF是命名实体识别模型中的两个不同的层。我们从微信公众号文章中摘录一段解释《BiLSTM上的CRF,用命名实体识别任务来解释CRF(1)》: 我们假设,有一个数据集,其中有两个实体类型,Person和Organization。但是,事实上,在我们的数据集中,我们有5个实体标签: B-Person I- Person B-Organization I-Organization O 此外,x是一个包含5个单词的句子,w0,w1,w2,w3,w4。更重要的是,在句子x中,[w0,w1]是一个Person实体,[w3]是一个Organization实体,其他都是“O”。 首先,将句子x中的每个单词表示为一个向量,其中包括单词的嵌入和字符的嵌入。字符嵌入是随机初始化的。词嵌入通常是从一个预先训练的词嵌入文件导入的。所有的嵌入将在训练过程中进行微调。 第二,BiLSTM-CRF模型的输入是这些嵌入,输出是句子x中的单词的预测标签。 第三,BiLSTM层的输出是每个标签的分数。例如,对于w0, BiLSTM节点的输出为1.5 (B-Person)、0.9 (I-Person)、0.1 (B-Organization)、0.08 (I-Organization)和0.05 (O),这些分数将作为CRF层的输入。然后,将BiLSTM层预测的所有分数输入CRF层。在CRF层中,选择预测得分最高的标签序列作为最佳答案。 3,本范例研究总结和展望 本文进行了大规模政府微博评论中公众观点抽取和舆论焦点呈现研究,研究结果表明: 所提出的细粒度政府微博评论标注策略与所构建的 POF-BiLSTM-CRF 模型具有有效性与普适性,领域适应性较好,应用优势明显; 能够自动学习政府微博评论文本特征,并准确标注评论对象、程度、观点和动作,基于不同评论对象准确迅速地呈现舆论焦点,对快速把握公众观点及决策提供了参考。 同时,本文研究仍存在情感指标缺乏和焦点呈现效率提升等问题。后续研究将考虑纳入评论情感因素,揭示观点的情感倾向; 以及引入多种文本特征优化焦点呈现过程,进一步减少人工主观因素作用,更为全面高效地呈现政府微博舆论焦点。 |