今天分享的这篇研究范例《基于Spark的舆情情感大数据分析集成方法》,针对现有中文社交媒体情感分析算法的准确性能和运行效率较低的问题,提出了一种基于Spark分布式系统的集成情感大数据分析方法 1,范例简介 标题: 基于Spark的舆情情感大数据分析集成方法 作者: 戴宏亮1 钟国金1 游志铭1 戴宏明2 作者单位: 1. 广州大学经济与统计学院 2. 华南理工大学软件学院 发表日期:2021-09-15 关键词:情感分析;舆情;中文社交媒体;Spark;Stacking; 基金资助:国家社会科学基金项目(18BTJ029)~~; 摘要: 随着移动互联技术的不断发展,社交媒体成为了公众分享观点和抒发情感的主要平台,在重大社会事件下对社交媒体文本进行情感分析能够有效监控舆情。针对现有中文社交媒体情感分析算法的准确性能和运行效率较低的问题,提出了一种基于Spark分布式系统的集成情感大数据分析方法(Spark Feature Weighted Stacking, S-FWS)。该方法首先基于Jieba库预分词和PMI关联度完成新词发现;然后考虑词语重要度混合提取文本特征,并使用Lasso进行特征选择;最后改进传统Stacking框架忽略特征重要度的缺点,使用初级学习器的准确率信息对类概率特征进行加权处理并构造多项式特征,进而训练次级学习器。分别在单机模式和Spark平台下引入多种算法进行对比实验,实验结果证明所提S-FWS方法的准确性能和耗时性能具备一定优势,并且分布式系统能够大幅提高算法的运行效率,同时随着集群工作节点的增加,算法耗时逐渐降低。 文章目录 1 引言 2 相关技术 2.1 Spark分布式运算平台 2.2 文本特征提取 2.1.1 点互信息算法 2.2.2 TF-IDF算法 2.2.3 Word2vec算法 2.3 集成学习 2.3.1 Bagging 2.3.2 Boosting 2.3.3 Stacking 3 S-FWS 3.1 新词发现 3.2 混合特征提取 3.3 改进Stacking集成模型构建 4 实验及结果分析 4.1 数据采集 4.2 实验环境 4.3 模型评估指标 4.4 准确性能实验 4.5 分布式加速实验 2,本研究范例主要研究方法、相关知识点和工具 2.1 数据来源 本文通过网络爬虫软件抓取新浪微博平台上“人民日报”账号在新冠肺炎疫情防控期间发布的疫情相关微博下其他用户发表的热门评论,共计20685条,时间为2020年1月23日至3月23日共计两个月,并对这些评论进行人工情感标记,其中积极情绪评论有10183条,消极情绪评论有10502条(记为数据集I)。同时,均衡采样平台datafountain发布的疫情网民情绪识别博文30000条(记为数据集II)以及《战狼II》上映相关舆情影评60000条(记为数据集III)进行验证。 微博采集网络爬虫推荐使用GooSeeker微博数据采集工具箱,输入网址或者关键词,启动采集即可。采集完成后,导出excel数据表。 2.2 本范例使用的几个文本特征提取算法 本范例使用了点互信息算法,TF-IDF算法,Word2vec算法。 这几个算法我们之前都有过探讨和相关的基于Jupyter Notebook发布,有兴趣的同学可以下载这些notebook,使用其中的python代码进行文本挖掘: 1. Jupyter Notebook使用Gensim库做中文Word2Vec模型计算 2. 基于Word2Vec的医学知识组织系统互操作研究_以词表间语义映射为例 3. 什么是点互信息(Pointwise Mutual Information, PMI) 4. Jupyter Notebook使用Python做PMI点互信息计算 5. 新闻内容分词后在Jupyter Notebook中使用TF-IDF算法提取关键词 3,本范例研究成果简介 本文提出的情感分析方法S-FWS的主要工作分为以下3部分: 1. 新词发现 2. 混合特征提取 3. 改进 Stacking集成模型构建 具体结构如下图所示: |