1,问题来源 上周在和GooSeeker软件用户交流的时候,有用户问:怎样针对某个单位作者在知网的论文做基于词频的分析,针对关键词和摘要就可以。 今天我们就以作者单位为“东莞图书馆”的文章为样本数据,做分词,词频统计,社交网络图分析。 2,样本数据的收集 在知网,搜索作者单位是“东莞图书馆”的文章,一共大概500篇。 使用GooSeeker网络爬虫软件,采集这些文章的篇名,作者,刊名,发布时间,关键词,摘要等字段 3,数据预处理 由于需要对摘要和关键词做词频统计分析,所以先对这2个字段做数据的预处理: 1. 去除关键词字段的所有空格 2. 去除关键词字段的除分号外的其它标点符号 3. 去除摘要字段大量出现的“正文” 4. 删除摘要和关键词字段都为空的记录 4,按年份统计论文数量(2000年后的) 5,分词和词频统计 使用GooSeeker文本和分词工具对excel表中的“关键词字段”进行分词和基于词频的分析词频统计 5.1 建立分词任务 在GooSeeker文本和分词工具中新建分析任务,并且对自动分词结果进行人工筛选。导出筛选后的多张分词结果表。 5.2 观察导出的词频表 打开词频统计表,可以看到所有词的词频统计,按从高到低的顺序排列 5.3 生成词云图 在GooSeeker分词工具上生成词云图,可以看到论文中出现最多的几个词是:服务,阅读,管理,推广,读者 5.4 生成共现词关系图 对于上图中的几个词频高的词,我们使用社会网络图分别查看和这个词共同出现的相关词。 下图是和“服务”共现的词: 下图是和“管理”共现的词: 下图是和“阅读”共现的词, 可以看到有很多和儿童相关的阅读关键词: 6,对摘要字段分词和分析 使用GooSeeker文本和分词工具对“摘要字段”进行分词和基于词频的分析词频统计 词云图: 社交网络图 7,更多分析 本文主要是为了简单介绍集搜客分词和文本分析软件的使用方法,一篇内容更加丰富的文献分析文章参看《毕业论文写什么,集搜客告诉你——微博数据挖掘篇》 |