微博最受人们关注的重要传播媒介之一, 在微博平台上,新闻热点事件层出不穷, 媒体相继跟踪报道, 实时发布消息, 由此导致了微博平台上热点话题层出不穷。针对微博平台上的博文数据和其它各种数据的研究也一直是高校论文命题的热点。 Gooseeker致力于为大学生提供易用的数据收集和文本挖掘工具,同时也会发掘一些已有的好的研究案例,分享给大家。 1,案例简介 本研究系吉林大学研究生创新基金资助项目(编 号:101832020CX017)及2020年度吉林省高教科研课题(编号:JGJX2020C6)阶段性成果。 本案例利用网络爬虫技术在新浪微博上爬取含有关键词“乘风破浪的姐姐”的所有博文作为研究数据,基于词频统计和LDA主题模型提取主题,从文本特征角度分析网络舆论对该综艺的关注热点。 2,相关知识 2.1,什么是LDA模型? LDA由Blei, David M.、Ng, Andrew Y.、Jordan于2003年提出,用来推测文档的主题分布。它可以将文档集中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题分布后,便可以根据主题分布进行主题聚类或文本分类。 LDA 采用词袋模型。所谓词袋模型,是将一篇文档,我们仅考虑一个词汇是否出现,而不考虑其出现的顺序。在词袋模型中,“我喜欢你”和“你喜欢我”是等价的。 2.2,LDA模型的使用方法和编程 在Python变成环境下,有多个可选的自然语言处理程序包。对于数据研究工作,尤其是通过探索数据撰写报告的工作,使用Jupyter Notebook编写Python程序,探索LDA主题模型,很贴合众多分析场景。GooSeeker发布了一系列编程模板,例如:《微博内容分词后怎样用JupyterNotebook做LDA主题模型分析》,可以下载下来稍作修改就能运行,降低学习Python编程的难度。 3,案例详情 标题:基于新浪微博大数据分析下的《乘风破浪的姐姐》 作者:孔明 关键词:《乘风破浪的姐姐》;微博;词频统计;LDA主题模型 基金资助:吉林大学研究生创新基金资助项目(编 号:101832020CX017)及2020年度吉林省高教科研课题(编号:JGJX2020C6)阶段性成果。 摘要:本研究为基于新浪微博大数据分析热门综艺《乘风破浪的姐姐》,透过社交媒体分析网络舆论对该节目的关注倾向,探究网民对该综艺的关注热点。 利用网络爬虫技术在新浪微博上爬取含有关键词“乘风破浪的姐姐”的所有博文作为研究数据,基于词频统计和LDA主题模型提取主题,从文本特征角度分析网络舆论对该综艺的关注热点。 研究发现,网络舆论对该综艺的关注主要集中于“话题人物”“女性价值”及“投票打榜”三个方面。 4,怎样下载微博数据 GooSeeker针对微博开发了一套网络爬虫工具——微博采集工具箱,例如,微博关键词搜索采集工具,输入要搜索的关键词,设定时间段,如果微博条数太多,要设置细分条件,即可启动网络爬虫工具,为研究课题收集内容。 |