在近期发布的《如何采集微博博主主页并生成共现矩阵用于Gephi社会网络分析》和《社交媒体话题文本分词后用sklearn的kmeans算法做聚类分析》等文章和实验中,我们使用从GooSeeker中文分词和情感分析软件导出的分词结果或者矩阵数据,很方便的导入Gephi或者在Jupyter Notebook中进行网络布局和算法实验。 GooSeeker中文分词和情感分析软件自发布后,经过多次的软件功能升级,目前已经成为了很多科研工作者的好帮手,比如很多大学生在写论文的过程中,都使用了此软件的中文分词/情感分析/共词矩阵分析功能来提高科研的效率以及从不同的角度进行分析。 历经多次功能升级,分词工具的导出文件也相应的有变化,我们今天就对当前版本的分词工具每种可以导出的数据都再说说: 能够导出的结果表,excel格式
能够生成的图,可供下载:
1. 导入数据的格式 在介绍有哪些导出格式前,先简单说一下导入格式。在创建分词任务时,导入的excel表格式如下图所示: excel最左边的2列“序号”和“正文”是必须有的,其它的列是可选的。其中“正文”字段的内容就是要进行中文分词和分析的文本。 创建任务后,分词软件对“正文”就会自动分词和统计词频,其它的功能比如人工选词、情感分析、社会网络分析等则可以根据自己的需要进行操作。 下面重点讲讲GooSeeker分词和情感分析软件能够产生哪些结果,有哪些导出格式。 2. 导出界面 2.1 分词、选词、矩阵结果导出界面 2.2 情感分析结果导出界面 3. 导出的结果表 3.1 词频表 词频表里记录了分词后的所有词的记录,每行是一条记录,包含:
3.2 分词效果表 分词效果表以导入时的正文为单位,每条正文一行,和导入文件是一一对应的。包含:
3.3 选词结果表 原始分词结果包含所有的词,有很多词对我们当前分析没有什么意义,或者会干扰分析。所以很多情况下,我们会对分词后的结果进行选词。 在对分词任务进行了人工选词后,此结果表才可以导出。 此结果表的结构和词频表一样,不同的是记录的词是经过选词筛选后的词。包含:
3.4 选词匹配表 在对分词任务进行了人工选词后,此结果表才可以导出。包含:
3.5 选词矩阵表 在对分词任务进行了人工选词后,此结果表才可以导出。包含:
3.6 共词矩阵表 在对分词任务启用了共词矩阵运行后,此结果表才可以导出。 每个词会占据一行,每个词也会占据一列,行列交会的值就是行和列的2个词同时出现的正文的个数。 3.7 情感分析结果表-正文情感分析 在对分词任务启用了“情感分析”运行后,此结果表才可以导出。 该结果表以导入时的“正文”为单位,每行“正文”为一行,列出了该“正文”文本里含有的:正面词,负面词,程度词,否定词,正面句子数,正面得分,负面句子数,负面得分,总得分 3.8 情感分析结果表-句子情感分析 在对分词任务启用了“情感分析”运行后,此结果表才可以导出。 该结果表以导入时的“正文”包含的每个句子为单位,每个“句子”为一行,列出了该“句子”文本里含有的:情感倾向,正面词,负面词,程度词,否定词 4. 生成可供下载的图 4.1 词云图 在对分词任务进行了人工选词后,才可以查看和导出词云图。 4.2 共词网络分析图 在对分词任务启用了共词矩阵运行后,才能查看和导出网络分析图 4.3 情感占比图 在对分词任务启用了“情感分析”运行后,才能导出情感占比图。 |