前2篇和Gephi相关的文章,一篇讲述了怎样下载安装Gephi,另一篇是一个使用Gephi对微博数据进行社会网络分析的范例: 1. 社会网络可视化分析方法探索—Gephi分析工具的下载和安装 2. Gephi案例分享《基于社会网络分析的网络公益信息传播研究——以微博为例》 那么要使用Gephi进行网络分析,有哪几种生成和导入数据的方式可以使用呢?今天我们就此做探讨和学习。 按照Gephi官网的介绍,Gephi的数据来源,下面几种是比较常用的: 1) 【测试和演练】Gephi软件提供的生成测试数据的功能 2) 【实战】从csv导入边和节点数据,或者直接导入邻接矩阵,比如,GooSeeker共词矩阵和其他矩阵 3) 【拓展】从其他数据源导入:数据库,网页等 下面我们逐一简单介绍。 1,生成测试数据 Gephi软件提供手工逐个生成点和边的方法,也提供了一次性生成包含多个点和边的测试数据的功能。这个测试数据的快速自动生成,对于初学者学习软件的各项其它功能很有帮助。 图1:Gephi生成随机图的菜单项 图2:用Gephi生成随机图需要输入的参数 图3:用Gephi生成的随机图 2,从csv/excel导入数据 Csv是一种以纯文本形式存储表格数据(数字和文本),文件的每一行都是一个数据记录。每个记录由一个或多个字段组成,通常用逗号分隔。使用逗号作为字段分隔符是此文件格式的名称的来源,因为分隔字符也可以不是逗号,有时也称为字符分隔值。 Gephi也支持直接导入excel文件。 Gephi支持导入点的数据,也支持导入边的数据,还支持导入邻接矩阵的方式。 图4:Gephi支持的导入数据格式 2.1,导入边数据 在导入边数据的时候,会根据边数据自动生成点。在一行数据中,还可以添加其他属性列 下面是我们准备的一个测试导入csv数据文件,每一行表示一个航班: Source,Target,Date,Time 北京,上海,2022-07-14,09:00 北京,上海,2022-07-14,10:00 ...... 我们在Gephi上执行导入操作,会看到生成了包含4个点的图: 图5:将csv导入Gephi——解析 图6:将csv导入Gephi——总结报告 图7:将csv导入Gephi——生成图 2.2,导入GooSeeker共词矩阵 GooSeeker分词和情感分析软件导出的共词矩阵是一个excel格式的矩阵,可以直接导入到Gephi中,不用转换成csv。下图是分析微博关键词搜索结果的关系图。 图8:微博关键词搜索得到的词关系图 2.3,导入GooSeeker其他文本分析数据 GooSeeker分词和情感分析软件导出的共词矩是一个共同出现关系矩阵,矩阵中的1表示出现,0表示不出现。只有[0, 1],其实更多信息被过滤掉了,比如,词频,tf-idf等。如果想得到更加复杂的邻接矩阵,比如,文档两两之间余弦相似度矩阵、关键词的协方差矩阵、关键词的余弦相似度矩阵、关键词的皮尔森系数矩阵等等,那么需要从GooSeeker选词矩阵表计算出来,接下来会用一系列文章讲解怎样做这些计算。 3,从其它源导入数据 Gephi可以从其它源比如数据库,网页上导入数据,觉得具体操作方法这里就不记录了,有兴趣可以参考官方文档。 4,下一步的学习和尝试 目前很多做研究和写论文的小伙伴使用集搜客网络爬虫软件采集社交媒体数据,使用集搜客文本分词和情感分析软件进行分词、词频分析、生成共词矩阵。 图9:将集搜客分词软件生成的共词矩阵导入Gephi 接下来,我们将出一篇Jupyter Notebook, 用来将从集搜客文本分词和情感分析软件下载的共词矩阵excel转换为Gephi要求的边数据格式的csv。 然后将基于集搜客文本分析软件导出的选词矩阵表讲解怎样计算文档或者词的余弦相似度矩阵、协方差矩阵、皮尔森系数矩阵,已经网络分析常用的Minimum spanning tree/maximum spanning tree计算方法等系列教程。 |