微博是最受人们关注的重要传播媒介之一,在微博平台上,新闻热点事件层出不穷, 媒体相继跟踪报道, 实时发布消息, 由此导致了微博平台上热点话题层出不穷。 针对微博平台上的博文数据和其它各种数据的研究也一直是高校论文命题的热点。 GooSeeker致力于为大学生提供易用的数据收集和文本挖掘工具,同时也会发掘一些已有的好的研究案例,分享给大家。 1,案例简介 本文提出高维稀疏情境下微博热点话题挖掘模型,引入领域词典监督预处理微博文本,基于朴素贝叶斯分类器进行特定领域信息识别,采用"密度—距离"快速搜索聚类算法实现领域热点话题挖掘,并以国土资源领域为典型进行实证。 2,相关知识 2.1,什么是维度 这篇博客《高维数据稀疏表示-什么是字典学习(过完备词典)》 举的例子很清楚,转载如下: 举个例子:对一个10个人的薪酬表的描述。 表的行是这10个人;列是这是一个人的属性,比如姓名、生日、职位、基本工资、工作年限等一共20个属性。那么,每个人即一个数据对象,是20维的。 2.2,高维和稀疏有什么关系 上一节举的例子看起来才20个维度,很容易处理,但是,有些数据对象的维度将会十分巨大。比如,一个图片,如果每个像素是一个维度,那么1024个像素的图像就是1024个维度,而现在的摄像头往往是亿数量级的像素数。 有个词叫做curse of dimension,这是数据挖掘和机器学习必须应对的困扰。博文《高维数据稀疏表示-什么是字典学习(过完备词典)》说了Bellman,要观察一堆高维数据表现出来的模式,随着维度升高,那么就需要越来越多的数据样本点。比如,在二维平面上两个点可以决定一条直线。目前研究的很多问题,维度太高了,准备足够的样本点是不可能的。另外,高维越算量巨大,很多也是不可能算的。 2.3,怎样降维 在高维场景下,能准备的数据样本很有限,而且还有个特点,每个数据点的大量的维度坐标值是0,也就是说这些数据点并不能全面代表整个空间的分布模式,他们都缩在某个面上。既然还浪费运算时间,不如进行降维,变得不那么稀疏。 比如,用GooSeeker分词和文本分析软件做了分词,可以看到一条内容变成了一系列词,但是,一个分析任务能分词出来的所有汉字可能有2万个,而一条微博内容分词出来的只有100个词,其他19900个维度都是0。这是十分稀疏的。 GooSeeker分词和文本分析软件提供了选词功能,实际上这是人工降维,比如,只选300个词,整个分析任务就在这个200维空间中看文本内容的分布模式。 从效果来说,人工降维的效果远远高于自动化方法,说的好听点,这叫基于专家经验的特征工程。但是,有些数据维数实在太大,例如,图片。从而诞生了多种机器学习算法。 下图是GooSeeker分词和文本分析软件分词和选词效果对比,左边红框是分词后的结果,右边红框是选词后的结果。可以看到维度大幅度缩减。 3,案例详情 标题:高维稀疏情境下微博专业领域热点话题挖掘研究 作者:陆泉 陈仕 陈静 郝志同 朱安琪 作者单位:1. 自然资源部城市国土资源监测与仿真重点实验室 2. 武汉大学信息管理学院3. 华中师范大学信息管理学院 关键词:高维稀疏; 微博热点话题; 信息识别; 话题挖掘; 国土资源; 基金资助:自然资源部城市国土资源监测与仿真重点实验室开放基金资助课题“我国国土资源的国际舆情监测与预警技术研究”的成果,项目编号:KF-2018-03-057; 摘要:[目的/意义]专业领域微博往往具有话题的高维稀疏性,探寻此类情境下微博热点话题挖掘的高效模型,以便相关管理部门快速掌握领域近况并进行决策。[方法/过程]提出高维稀疏情境下微博热点话题挖掘模型,引入领域词典监督预处理微博文本,基于朴素贝叶斯分类器进行特定领域信息识别,采用"密度—距离"快速搜索聚类算法实现领域热点话题挖掘,并以国土资源领域为典型进行实证。[结果/结论]本文模型能在高维稀疏情境下准确识别专业领域信息并挖掘出热点话题,有助于专业领域微博舆情分析与预警。 4,怎样下载微博数据 GooSeeker针对微博开发了一套网络爬虫工具——微博采集工具箱,例如,微博关键词搜索采集工具,输入要搜索的关键词,设定时间段,如果微博条数太多,要设置细分条件,即可启动网络爬虫工具,为研究课题收集内容。 |