微博具有开放性和互动性,每天都有海量信息涌现,且具有文本内容短小、信息含量少、用词不规范等特点。 微博热点话题是以微博为应用平台的热点话题。微博是以用户关系为基础进行信息分享和传播的平台,具有很强的互动性。其自身特征使微博用户拥有信息接收者和发起者的双重身份,这一身份特征促使微博上的消息在网络上迅速、及时地传播,某些突发、热点事件的话题便常常会在这时表现出来。热点话题的发现不仅能够帮助人们快速了解某段时间的社会热点,更有助于管理人员及时地发现社会舆情,并进行正确引导。 今天给大家分享一个微博热点话题研究的案例。 1,案例简介 本研究从新浪微博上收集博文、时间、每条博文的转发数、评论数和转发文本、评论文本等数据,作为微博热点话题发现的数据源。 在对相关知识和技术分析的基础上,重点研究了在微博热点话题发现中,如何改进话题的文本表示模型,解决特征空间表示稀疏性问题,同时分析现有话题发现方法指出其不足,并对其进行改进。最后对话题热度分析进行相应的改进。 2,相关知识 2.1,什么是TDT(Topic Detection and Tracking,话题检测与跟踪) TDT(Topic Detection and Tracking,话题检测与跟踪)起源于早期面向事件的检测与跟踪(Event Detection and Tracking,简写为EDT)是近年提出的一项信息处理技术,这项技术旨在帮助人们应对日益严重的互联网信息爆炸问题,对新闻媒体信息流进行新话题的自动识别和已知话题的持续跟踪。与EDT不同,TDT检测与跟踪的对象从特定时间和地点发生的事件扩展为具备更多相关性外延的话题,相应的理论与应用研究也同时从传统对于事件的识别跨越到包含突发事件及其后续相关报道的话题检测与跟踪。 2.2, 什么是粗糙集(Rough Set) 粗糙集(Rough Set,简称 RS)理论,是于 1982 由波兰数学家 Pawlak 教授提出的一种用于研究含糊和不精确知识的数学工具,其通过构造上下近似集确定边界区域,解决含糊元素的确认问题。RS 自问世以来发展迅速,现已在不同领域取得成功应用。 3,论文详情 标题:基于容错粗糙集的微博热点话题发现研究 作者:云南财经大学 郭娟 关键词:微博热点话题;容错粗糙集;增量式凝聚层次K-means聚类算法;话题热度; 摘要: 热点话题是在具体时间段内发生的,能够引起人们广泛关注的不同领域中的话题。微博热点话题是以微博为应用平台的热点话题。微博是以用户关系为基础进行信息分享和传播的平台,具有很强的互动性。其自身特征使微博用户拥有信息接收者和发起者的双重身份,这一身份特征促使微博上的消息在网络上迅速、及时地传播,某些突发、热点事件的话题便常常会在这时表现出来。热点话题的发现不仅能够帮助人们快速了解某段时间的社会热点,更有助于管理人员及时地发现社会舆情,并进行正确引导。微博具有开放性和互动性,每天都有海量信息涌现,且具有文本内容短小、信息含量少、用词不规范等特点,使得运用传统热点话题提取方法对微博平台上的热点话题进行发现时力不从心。鉴于此,本文所做工作主要包括以下方面: (一)根据微博信息传播特征,对传统的容错粗糙集模型进行扩展,提出了基于微博特征扩展的容错粗糙集模型。传统的容错粗糙集模型是基于一些属性的协同出现构造某个概念的上近似和下近似集,实现属性的约简或扩张,由于容错类的建立过于宽松,会导致准确度和有效性很低,不适宜直接应用于本文环境。因此,结合微博具有的转发、评论等特征,对传统容错粗糙集模型进行改进。 (二)采集新浪微博消息作为语料,分析语料自身特点,并将其表示成基于微博特征的容错粗糙集文本表示模型。本文在分析研究微博消息语料自身特征时发现直接运用已有的文本表示模型,存在文本表示稀疏性问题,基于此,本文使用基于微博特征扩展的容错粗糙集模型,构建文档集表示模型,并根据提出的文本表示模型扩展特征项权重的计算方法。 (三)提出一种增量式凝聚层次K-means聚类算法,进行微博热点话题发现,有效克服K-means算法初始聚类中心选取较为敏感及层次聚类算法复杂度较高的问题,对话题热度度量公式进行改进。 4,怎样下载更多微博数据 GooSeeker针对微博数据的采集有微博采集工具箱,多个工具互为配合,可以采集博主,博文,评论,转发,粉丝,关注者,话题广场等等,添加网址或关键词就可以启动采集: |