本文将介绍一篇论文案例,使用GooSeeker网络爬虫软件抓取微博上的评论内容,然后使用Python进行自然语言处理(NLP)。 高校师生写论文和做毕业设计经常会围绕微博数据采集和Python编程展开,GooSeeker也一直在Jupyter Notebook上发布一些编程模板,只需稍微的改动,就能用于自己的研究项目。例如,围绕LDA主题分析模型的有: 1. 微博内容分词后怎样用JupyterNotebook做LDA主题模型分析 2. 微博内容分词并手工选词后用JupyterNotebook做LDA主题分析 1,案例简介 本研究通过数据采集和文本分析软件GooSeeker 抓取相关性事件的微博评论性文本,然后对采集到的微博评论性文本进行数据的整合与清洗工作。利用Python 编程的方式来对采集到的微博评论性文本进行分析,在Python 编程引入相关的包和库来对大数据文本进行主题建模和情感极性分析,进而提炼和挖掘出大数据文本中潜在的价值信息。 研究的步骤示意图如下: 2,相关知识 2.1,什么是LDA模型? LDA由Blei, David M.、Ng, Andrew Y.、Jordan于2003年提出,用来推测文档的主题分布。它可以将文档集中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题分布后,便可以根据主题分布进行主题聚类或文本分类。 LDA 采用词袋模型。所谓词袋模型,是将一篇文档,我们仅考虑一个词汇是否出现,而不考虑其出现的顺序。在词袋模型中,“我喜欢你”和“你喜欢我”是等价的。 2.2,LDA模型的使用方法和编程 在Python变成环境下,有多个可选的自然语言处理程序包。对于数据研究工作,尤其是通过探索数据撰写报告的工作,使用Jupyter Notebook编写Python程序,探索LDA主题模型,很贴合众多分析场景。GooSeeker发布了一系列编程模板,例如:《微博内容分词后怎样用JupyterNotebook做LDA主题模型分析》,可以下载下来稍作修改就能运行,降低学习Python编程的难度。 3,案例详情 标题:回归与超越:粉丝文化语境下网民对“网红带货”的情感态度研究 作者:上海大学新闻传播学院 孙强 关键词:网络直播;网红带货;虚假宣传;情感偏好;监管体系 摘要: 研究以微博平台为文本数据来源库,把“网红带货”作为搜索关键词,通过Gooseeker 第三方软件采集到15 条相关性微博中的11629 条评论,然后再应用Python 编程的方式来对大数据文本进行分析。研究梳理出,网红带货引发的现实问题有五个方面,分别如下:假货产品的问题、虚假宣传的问题、主播担责的问题、监管缺位的问题、消费者权益保障的问题。通过LDA 文本聚类对评论性文本的主题结构分析后,发现主题结构呈现出三个方面的特征:粉丝群体对涉事网红形象认同的主题聚类,网民对网红带货现实问题的主题聚类,粉丝群体涉事网红问题转嫁的主题聚类。以Snownlp 作为文本情感值计算的方法,在网民对于网红直播带货的情感态度状况中,发现粉丝群体存在情感偏好支配理性的话语和行为逻辑。在“直播带货”中,粉丝群体对网红主播的情感偏好,会淡化主播涉嫌虚假宣传的事实,并且粉丝群体会采取“问题转嫁”的方式来为偶像主播寻求解释,这为网红带货现象的治理带来了挑战。构建立体式监督管理体系,有助于网络直播带货的良性发展。 4,怎样下载微博数据 GooSeeker针对微博开发了一套网络爬虫工具——微博采集工具箱,例如,微博关键词搜索采集工具,输入要搜索的关键词,设定时间段,如果微博条数太多,要设置细分条件,即可启动网络爬虫工具,为研究课题收集内容。 |