1,案例寻找 微博因为信息丰富、多样且开放,且每时每刻都在产生“新鲜”的数据, 是最佳的数据渠道,基于微博上的各种数据做分析,也是每年大学生论文的热门方向。 最近在学习怎样做基于微博数据的分析, 想找一些相关的分析案例作为参考,在知网上找到了这篇《基于新浪微博评论数据的消费券政策效果评估分析》。 这篇文章基于新浪微博网民评论数据,对消费券政策进行评估分析,力图为政策优化提供有益参考。 2,案例信息 题名:基于新浪微博评论数据的消费券政策效果评估分析 作者:刘虎 王艺奇 许蓉蓉(国家统计局统计资料管理中心) 关键词:重大事件冲击; 消费券政策; 自然语言处理; 文本分类; 卷积神经网络; 灰色关联分析; 潜在狄利克雷分配(LDA); 会议名称:2020年(第七届)全国大学生统计建模大赛 会议时间:2020-12-10 会议地点:中国北京 专辑:经济与管理科学 专题:贸易经济 摘要: 消费券政策是疫后提振内需,促进经济良性循环的重要手段。但在实施前后存在一些争议。本文基于新浪微博网民评论数据,对消费券政策进行评估分析,力图为政策优化提供有益参考。完成的主要工作如下。 1. 提出了一种基于价值密度进行文本分类,进而得到强相关数据集的方法。 根据网民潜在情感或所持立场的差异作为评论文本分类标准存在一定困难。为此,提出以评论文本"对改进政策是否有所助益"为标准进行分类,区分为强相关评论和弱相关评论。以此标准划分训练数据集后,应用于字符级卷积神经网络文本分类算法,得到的模型预测准确率符合预期。 与循环神经网络算法相比,卷积神经网络准确率更高,特别是收敛的速度更快。 2. 为了得到影响消费券政策支持度的显著因素,利用灰色关联分析模型,从消费券设计,经济数据和网民参与程度3个方面,选取9个维度数据,与网民支持度进行了关联分析。 研究表明:分城市经济基本面数据与网民支持度之间存在最强的灰色关联关系,消费券的设计形式次之,网民参与度和消费券发放金额也和网民支持度之间有一定关联度,但与前两者相比较弱。可见,消费券政策的发放金额并非调动居民积极预期的唯一原因。相反,如果其他因素控制不当,甚至可能会引起居民的消极预期。 3. 为了探究消费券"套现"问题的深层次原因,利用潜在狄利克雷分配(LDA)主题聚类模型,对网民评论数据进行探索性分析。 根据聚类模型识别与"套现"共现的关键词后,进一步结合当地所发行的消费券类型,以及城镇居民收支数据进行研究。 最后得出主要结论:消费券的门槛值和优惠值对套现行为具有强正相关影响;高于居民可支配收入的使用门槛,可能是导致个别城市消费券"套现"泛滥的主要原因。 4. 综合强相关数据集体现出来的敏感话题,网民支持度关联因素分析,消费券"套现"问题研究结论,在科学设计消费券的面值,综合考虑当地财力量力而行,加大宣传力度,政策公平性,突出纾困重点五个方面,对优化消费券政策提出相关建议。 3,相关知识 3.1 什么是潜在狄利克雷分配(LDA) 潜在狄利克雷分配(LDA),作为基于贝叶斯学习的话题模型,是潜在语义分析、概率潜在语义分析的扩展,于2002年由Blei等提出。LDA在文本数据挖掘、图像处理、生物信息处理等领域被广泛使用。 3.2 什么是灰色关联分析 灰色关联分析是灰色系统理论的一个分支,应用灰色关联分析方法对受多种因素影响事物和现象从整体观念出发进行综合评价,已经是一个被广泛接受的方法。 对于两个系统之间的因素,其随时间或不同对象而变化的关联性大小的量度,称为关联度。在系统发展过程中,若两个因素变化的趋势具有一致性,即同步变化程度较高,即可谓二者关联程度较高;反之,则较低。因此,灰色关联分析方法,是根据因素之间发展趋势的相似或相异程度,亦即“灰色关联度”,作为衡量因素间关联程度的一种方法。 4,后续的学习实践 准备先用GooSeeker微博采集工具箱针对某个话题采集一些微博关键词数据和微博评论数据,然后使用内容分析法做一些探索。 |