今天分享给大家的这篇研究论文范例以社会化问答平台“知乎”为例,通过K-means聚类算法和LDA主题模型挖掘“知乎”平台下心理健康话题中的公众心理健康信息需求提问数据,并对这些数据进行分析和研究,探究新冠肺炎疫情期间公众心理健康信息需求特点及分布情况,为有关政府部门和相关运营商更好地了解这方面现状,提升服务水平提供参考和帮助。 知乎问答话题数据的收集,可以使用集搜客快捷采集_知乎,添加网址或者关键词,启动采集。采集完成后,直接打包下载excel文件就可以了。 同学们做研究和写论文,收集到的研究数据, 比如政策文本,新闻,在线评论,知乎话题问答等,如果需要分词后做分析,我们一般推荐同学们使用GooSeeker文本分词和情感分析软件,软件的界面很人性化,文科生可以直接无障碍上手使用,主要功能有:分词,关键词提取,人工筛选,词频统计,词云图,情感分析,社交网络图生成等。 由于有大量的活跃用户在持续使用这个软件帮助他们进行研究工作和写论文,这些用户会经常提出各种优化建议,所以这个软件的功能和易用性一直在优化提高,不像一些开源软件多年没有人维护。 对于通用中文分词器在特定领域分词不准的情况,GooSeeker文本分词和情感分析软件也有解决方案:可以添加和导入自定义的词典。 1,本研究范例简单介绍 标题:新冠肺炎疫情期间公众心理健康信息需求研究—以社会化问答平台“知乎”为例 作者: 米国伟1 先祖权1 王琳1,2 吕端士1 1. 天津师范大学管理学院 2. 天津师范大学心理与行为研究院 来源:中国知网(https://www.cnki.net/) 基金资助: 国家社会科学基金重大项目“新时代民众心理与社会心态服务于社会治理的模式研究”(项目编号:20ZDA079); 天津市哲学社会科学规划项目“基于公众网络信息行为的政府网站可检索性理论分析及优化”(项目编号:TJTQ16004); 关键词:社会化问答社区;新冠肺炎疫情;心理健康;信息需求;聚类;主题模型; 摘要: [目的/意义] 本文以社会化问答平台为例,探究新冠肺炎疫情期间公众心理健康信息需求特点及分布情况,为有关政府部门和相关运营商更好地了解这方面现状,提升服务水平提供参考和帮助。 [方法/过程] 通过数据采集、数据处理、K-means聚类、LDA主题模型和需求识别5个步骤对疫情期间"知乎"问答平台下心理健康话题中的全部14 168条提问数据进行信息需求挖掘。通过对比分析,探究出疫情暴发前时期、疫情时期和后疫情时期的公众心理健康信息需求主题特征,构建出新冠肺炎疫情期间公众心理健康信息需求框架。 [结果/结论] 疫情期间比较容易出现家庭情境下的心理健康信息需求;公众容易出现与抑郁有关的心理健康信息需求;公众心理健康问题的预防意识和接受专业心理援助的意识有待提高;网络环境下心理健康信息需求表达的准确性有待加强。 文章目录 1 国内外研究现状 1.1 社会化问答平台信息需求研究 1.2 公众心理健康研究 2 基于文本挖掘的心理健康信息需求分析框架 2.1 数据采集与处理 1)数据来源与采集 2)数据处理 2.2 K-means聚类 2.3 LDA主题模型 2.4 需求识别 3 公众心理健康信息需求结果分析 3.1 数据基本情况 3.2 公众心理健康信息需求框架 3.3 疫情期间不同社会群体的心理问题分布 4 讨论 5 结论 2,范文相关知识点和研究方法 2.1 什么是聚类? 本文提到了K-means聚类算法和LDA主题提取算法,那么什么是聚类,还有哪些聚类方面的算法呢? 下面是一段来源于知乎问答上的解释:聚类是什么? 人类对未知事物的认知过程就是提取特征值、根据特征值将事物分类、套用类特性来推测这个未知事物行为特点。 一般的分类都是根据人类的知识来进行的:如何设置特征变量、特征变量的取值和类的关系等。但有些情况下,如何分类的知识也不太清楚时,尤其是在大数据的电商领域,我们连类在哪都不清楚(如啤酒和尿布竟会有联系),这就无法分类、也就无法完成认知了。为了解决这种情况下的问题,所以就提出了聚类,也就是计算机自动学习分类特征。聚类的原理是事物分布的非均匀性、时空相近性,也就是说,事物的分布就如我们所看到的宇宙星空一样,大部分的空间非常稀疏,而在某些时空区域则会大量聚集,即类间距离远大于类内距离。聚类就是利用这个特点,找到这样的聚集区域。然后分析它们为什么会聚集在一起,寻找分类特征。以后就可以用特征值来代替一类事物,从信息压缩上就是极大的效率。 用直白的语言翻译一下上面那段话: 1. 拿“分类”作对比,如果预先知道要分成哪些类,那么就用分类方法;如果预先不知道有哪些分类,就寄希望于“聚类”算法能自动给我们聚出来几类 2. 算法是怎么聚的呢,可以用星空做类比,有些区域星星多,他们本来就是一堆一堆的,算法就能自动把一堆一堆划分出来 3. 从算法实现原理方面看,其实也跟人的认知类似,面对一个类别,或者某个实物对象,它给其它对象能有差别的一定是一些属性,比如,狗的嘴型和猫的嘴型是不一样的,嘴型就是一个属性。因为脑力所限,不能把所有细枝末节的属性都用来做区别,那么就抓住关键属性,所谓的特征,聚类算法就能经过运算抓住一系列特征,再用特征划分类别。 2.2 有哪些聚类算法? 下面这种思维导图来源自:《数据挖掘导论》思维导图3--聚类分析 总结一下,上图列出来三大类聚类算法: 1. 求距离的方法:从每一堆选出一个参照对象,其他对象跟这些参照对象的距离进行比较,哪个近就加入哪堆。确定堆、选参照、算距离都是要迭代很多次的。 2. 用图的方法 3. 求密度的方法 3,后续的学习 学习各种聚类分析算法,并尝试在Jupyter Notebook中使用Python来做算法实验。 |