在上个月分享的几个LDA模型相关的Jupyter Notebook中,我们通过模板的形式演示了怎样基于Gooseeker分词结果,使用Python+gensim来做LDA模型提取实验: 1. 微博内容分词后怎样用JupyterNotebook做LDA主题模型分析 2. 微博内容分词并手工选词后用JupyterNotebook做LDA主题分析 3. 分析电商评论发现消费者话题-LDA主题分析篇(Jupyter Notebook) 今天和大家分享的是一篇基于LDA模型模型构建新冠肺炎疫情事件下微博用户的主题聚类图谱的研究案例。 该文基于LDA(latent Dirichlet allocation)模型构建新冠肺炎疫情事件下微博用户的主题聚类图谱,利用困惑度评价指标来确定微博用户的最优主题数和主题分布;利用网络用户转发评论关系构建微博用户主题聚类图谱,提出网络社群间主题传播路径分析方法。 研究所需的微博数据,可以使用集搜客的微博采集工具箱和微博快捷采集得到,添加网址或关键词启动采集即可。 1,论文案例简介 基金项目:国家社会科学基金重大项目“大数据驱动的社交网络舆情主题图谱构建及调控策略研究”(18ZDA310) 作者:张柳,博士研究生,主要研究方向为网络舆情;王晰巍,教授,研究员,博士生导师,主要研究方向为社交媒体网络舆情和信息行为;黄博,博士研究生,主要研究方向为机器学习; 刘婷艳,博士研究生,主要研究方向为网络舆情。 关键词: LDA;新冠肺炎;微博用户;主题聚类;传播路径 摘要: 本文构建“日本钻石邮轮”舆情话题微博用户的主题聚类图谱和对网络社群间主题传播路径进行分析,可以更好地识别微博用户主题特征和意见领袖,从而帮助舆情监管部门对舆情进行更为有效的引导和监管。本文基于LDA(latent Dirichlet allocation)模型构建新冠肺炎疫情事件下微博用户的主题聚类图谱,利用困惑度评价指标来确定微博用户的最优主题数和主题分布;利用网络用户转发评论关系构建微博用户主题聚类图谱,提出网络社群间主题传播路径分析方法。本文结合“日本钻石公主号邮轮”这一全球新冠肺炎疫情期间的重要舆情话题,进行微博用户群体主题的确定、主题意见领袖的识别以及该话题下的网络社群间主题传播路径分析。研究结果表明,基于LDA模型可进行网络群体主题识别,并发现衍生的舆情话题,通过意见领袖识别可更好地进行舆情引导,利用网络社群的主题传播路径分析可进行话题推送,从而实现对舆情更好地引导及网络生态治理。 2,研究理论与方法 2.1,基于LDA模型的主题聚类图谱 主题聚类图谱将海量的微博用户发布的文本信息通过主题相似度进行划分,并将同一主题下的网络用户通过社交关系聚集在一起。 2.2 网络社群间主题传播路径分析 本文通过 PageRank 值确定各个网络社群的意见领袖,结合 LDA 主题模型得到“文档-主题分布”,获得意见领袖之间的相似度,利用该相似度确定不同社群间意见领袖的语义距离,并将语义距离作为社群之间的边权重,通过 Dijkstra 算法计算遍历各个意见领袖的最短主题传播路径。 3,主要研究步骤 1) 收集微博数据 2) 确定主题聚类个数 3) 构建主题聚类图谱 4) 网络社群意见领袖识别 5) 社群间主题传播路径分析 主题聚类图谱: 最小社群微博用户主题6节点分布 4,研究结论 在理论层面,本文构建基于 LDA 模型的“日本钻石公主号邮轮”舆情话题微博用户主题聚类图谱,采用困惑度评价指标确定 LDA 模型最优主题数,为新冠肺炎疫情舆情话题下的微博用户主题聚类图谱的网络社群用户特征分析和不同社群下意见领袖、网络社群间主题传播路径分析提供一定的理论和方法支撑。在实践层面,本文结合新冠肺炎疫情期间“日本钻石公主号邮轮”话题下微博用户主题群体,进行划分及意见领袖的识别,并对该话题下的网络社群间主题传播路径进行分析。 研究结果表明,基于 LDA 模型的微博用户主题聚类图谱,不仅可以识别网络用户群体关注的重要主题,而且能够准确定位每个主题聚类下的意见领袖和关键主题的传播路径,为舆情监管部门识别新冠肺炎疫情下不同微博用户关注的主题特征,通过主题传播路径进行关键意见领袖的主题推送,从而帮助舆情监管部门更为有效的进行舆情监管和舆情引导。 5,思考问题 这是一篇很值得学习的研究论文,可以参照这篇论文的思路,选一个微博上的热点话题,做一遍实验,那么要解决以下几个问题: 1. 使用gensim做话题聚类,选择出来要分析的话题。那么需要回答:怎样使用perplexity指标选择话题?选多少个合适? 2. 怎样做pageRank计算 3. 怎样计算话题相似度 |