如何采集微博博主主页并生成共现矩阵用于Gephi社会网络分析

2023-7-12 12:24| 发布者: Fuller| 查看: 4547| 评论: 0

摘要: 使用GooSeeker微博采集工具箱来收集数据,并结合使用GooSeeker文本分词和情感分析软件进行中文分词、情感分析,生成共现词矩阵,最后用Gephi生成网络图进行观察和分析。这些软件输出的结果作为研究任务的数据素材和 ...

此前发布了一篇《Gephi社会网络分析-网络图Force Atlas布局使用方法实验》,提到可以采集微博博主主页上的内容演练Gephi的社交网络分析方法。另一方面,不断有新同学使用GooSeeker微博采集工具箱来收集数据,并结合使用GooSeeker文本分词和情感分析软件进行中文分词、情感分析,生成共现词矩阵,最后用Gephi生成网络图进行观察和分析。这些软件输出的结果作为研究任务的数据素材和证据。基于上述原因,有必要单独写一篇,记录如何为《Gephi社会网络分析-网络图Force Atlas布局使用方法实验》准备实验数据。这是整个分析过程的前半段过程。希望本文和以前发布的文章一样能帮助同学更好地进行互联网内容分析和社会网络分析。

1. 数据准备流程说明

本次Gephi社会网络分析的样本数据,是:

  1. 网络爬虫软件从微博博主胡老师的微博中采集得到,采集完成后导出excel表格;
  2. 然后使用GooSeeker文本分词和情感分析软件,对微博数据进行自动分词和人工选词后生成共词矩阵;
  3. 共词矩阵保存在excel表格里,可以在Gephi里直接打开生成对应的网络图,进而进行各种布局的实验。

2. 微博博主数据的采集

第一步:访问GooSeeker微博采集工具箱

第二步:点击卡片“微博博主主页内容”,进入微博博主主页采集工具:

第三步:点击“新建采集任务”,给任务起个名字,然后输入要采集的博主主页网址,点击“确认”:

第四步:点击“启动采集”即可启动网络爬虫软件

注意事项:

1. 采集前需要在GooSeeker爬虫软件里新打开一个tab,访问微博网站, 一定要预先登录微博。

2. 上述操作过程都在GooSeeker爬虫浏览器中访问微博采集工具箱网页和微博网页,那么可以直接点击启动采集按钮,免去先在某个浏览器中查看内容再切换到爬虫软件中采集数据的麻烦。

第五步:采集完成后,打包并下载保存excel结果文件。

3. 使用GooSeeker文本分词和情感分析软件生成共现矩阵

访问GooSeeker分词和文本分析工具,登录后,点击“新建任务”,分词工具的入口已经集成在GooSeeker爬虫软件的左边栏上,免去手工输入网址的麻烦。

可以看到页面上给出了导入excel数据的格式,就是必须要有2个字段:序号,正文

我们打开上一步采集到的微博博主主页结果excel,把“博文”字段改名成“正文”,在最左边增加1列“序号”,值就是从1开始的数字,然后保存:

在分词工具里给新任务起个名字,选择上述excel文件:

可以看到,导入后,已经自动完成了分词。

注意:有些同学如果是仅仅想要分词结果,那么导入后不需要做其它操作,直接就可以下载分词结果了。

我们需要共词矩阵,需要做一下“筛选词语”,本次实验只勾选“名词”和“动词”,其它的没有选择:

筛选完成后,切换到“共词匹配”子功能区,点击“共词匹配”。完成后导出共词矩阵

到这里,我们需要共词矩阵已经准备好了,可以按《Gephi社会网络分析-Force Atlas布局使用方法实验》的描述进行相关实验了。

4. GooSeeker分词工具其它的功能

很多同学会用到分词工具的其它功能,这里简单提一下。

4.1 词云图

4.2 查看网络图

4.3 情感分析

4.4 抽关键词

还有合并同义词,自定义词语的添加,分类管理等功能,有需要的同学可以自己体验。

5. 总结

本篇记录了怎样准备Gephi社会网络分析需要的实验数据:

1. 使用微博工具箱博主主页工具采集微博博主的博文

2. 使用GooSeeker分词工具生成共词矩阵

3. 简单介绍了GooSeeker分词的其它功能

得到的数据就可用于Gephi,参看《Gephi社会网络分析-网络图Force Atlas布局使用方法实验》。


鲜花
1

握手

雷人

路过

鸡蛋

刚表态过的朋友 (1 人)

最新评论

GMT+8, 2024-10-31 12:53