Gephi社会网络分析-马蜂窝游记文本分词并同义词合并

2024-3-12 11:28| 发布者: Fuller| 查看: 3202| 评论: 0

摘要: 在Gephi生成社会网络图之前,对马蜂窝游记文本进行自动分词、手工选词; 使用“加词调效果”功能对未能正确自动分词进行优化处理;启动共词矩阵匹配和情感分析;使用“同义词合并”功能对一词多表达方式进行优化 ...

本文内容提要:1.实验目的:针对上一篇文章(《Gephi社会网络分析-基于马蜂窝游记文本以词语间距为筛选条件的共词矩阵》)存在的不足进行优化; 2.实验数据来源说明; 3.对马蜂窝游记文本进行自动分词、手工选词; 4.使用“加词调效果”功能对未能正确自动分词进行优化处理; 5.启动共词矩阵匹配和情感分析; 6.使用“同义词合并”功能对一词多表达方式进行优化; 7.在分词工具里观察共词网络图、词云图和情感分析; 8.对共词矩阵excel表进行词语间距过滤处理; 9.使用共词矩阵excel在Gephi生成网络图并观察; 10.总结

1. 实验目的

年前发布的《Gephi社会网络分析-基于马蜂窝游记文本以词语间距为筛选条件的共词矩阵》,记录了怎样使用Gooseeker文本分词和情感分析软件工具导出的原始共词矩阵数据,及使用经词语间距过滤的共词矩阵数据,在Gephi中生成网络图,调整网络图的外观后进行观察。

在Gephi中使用Fruchterman Reingold布局生成的网络图如下:

下面是使用ForceAtlas布局生成的网络图:

使用ForceAtlas布局的网络图看起来似乎更直观些。

该文发布后,有不少同学在知乎讨论区和QQ讨论群留言,提出该文存在的不足,希望我们后续进行优化。我们总结了一下,主要以下2个意见和建议:

  1. 在Gephi生成的网络图上可以看到有自动分词切分不准的情况,比如:“干面”和“户部”,这2个词应该是“热干面”和“户部巷”。
  2. 有些词应该属于同义词,如果能合并显示,效果会更好些,比如:“武大”和“武汉大学”,“武汉长江大桥”和“长江大桥”,“湖北省博物馆”和“省博物馆”、“博物馆”

其实上面的2点建议在GooSeeker分词工具里都有成熟的对应功能,具体就是:

  1. 加词调效果功能
  2. 同义词合并功能

出于控制文章篇幅考虑,我们在上一篇文章里略过了这2步,今天补上。

为了能让没看过上一篇文章的用户及分词工具的新用户无障碍地阅读本文,我们会从创建分词任务开始,老用户可以直接跳到“第四章”开始阅读。

2. 实验样本数据来源说明

使用GooSeeker快捷采集工具:马蜂窝游记采集_列表马蜂窝游记采集_详情,采集网页上的游记文本数据。

3. GooSeeker分词工具对马蜂窝游记文本进行分词和选词

登录分词工具,在我的任务页面下“新建任务”

创建任务后系统会启动自动分词,自动分词结束后刷新页面看效果,此时就可以导出“词频表”和“分词效果表”。还可以进一步点击进入“筛选词语”页面,手工选词要参与分析的词,这样可以更加聚焦。

通常可以根据研究的任务类型和研究目的,人工选择有代表性的词语,进行后续的共词匹配和词云图展示。本实验直接选择“名词”、“形容词”、“动词”这几个词性的词语,然后确认前10页:

4. 使用“加词调效果”功能解决自动分词错误的问题 

可以通过词云图或者下载的“分词效果表”“选词结果表”查看自动分词的结果和人工选词的结果。

如果发现存在自动分词没分准的词,可以通过点击“加词调效果”把正确的词添加进去,比如笔者这里添加了“热干面”、“户部巷”、“昙华林”这几个词:

因为这一批游记文本都是关于武汉景点和旅游的,所以把词频最大的那个“武汉”手工删除掉了。

再次打开词云图,可以看到“热干面”、“户部巷”已经正常显示了

5. 启动共词矩阵匹配和情感分析 

在“社会网络”功能页面点击启动“共词匹配”

在“情感分析”功能页面点击启动“启动情感分析”

6. 使用“同义词合并”功能对一词多表达方式进行优化 

点击查看“网络图”或者词云图,可以看到几对同义的词:“武汉大学”和“武大”,“武汉长江大桥”和“长江大桥”

我们在“同义合并”自功能页面点击“添加”或者“批量导入”,就可以将同义词添加进去。

同义词添加后,词频统计会自动更新,“共词匹配”需要手工再次点击后才会匹配更新

我们在“同义合并”功能页面再次点开词云图,可以看到“武汉大学”和“武汉长江大桥”比前面看到的更大了,这是因为词频数合并了“武大”和“长江大桥”的原因

7. 在分词工具里观察共词网络图、词云图和情感分析 

前面我们已经查看了词云图和共词网络图,情感分析结果可以在页面上查看或者下载excel结果

8. 对共词矩阵excel表进行词语间距过滤处理

在“共词匹配”页面导出的结果表是未进行同义词合并的原始结果表:

如果做了“同义词合并”,那么有4张表需要从“同义合并”功能页面导出:

可选步骤:可以根据文本性质和研究目的,使用Python Jupyter Notebook对导出的结果表基于词语距离进行过滤,具体方法可以参照已经发布的文章《知乎话题文本用词间距筛选后生成共词矩阵并画图和存成excel》。也可以不做基于词语距离的过滤,直接在Gephi里导入共词矩阵生成网络图做进一步观察。

9. 使用共词矩阵excel在Gephi生成网络图并观察 

详细步骤可以参照上一篇文章《Gephi社会网络分析-基于马蜂窝游记文本以词语间距为筛选条件的共词矩阵》。

在分词工具里进行了同义词合并和加词调效果后,再基于词语距离做过滤,然后在Gephi里使用ForceAtlas布局生成的网络图:

经过加词调效果和同义词合并后,我们在网络图上看到热干面已经正常显示了,同时“武大”已经合并到“武汉大学”了。

图上面的词“元寺”,应该是指武汉的“归元寺”,看来这个寺庙名称自动分词没有分出来,有兴趣的同学可以继续尝试“加词调效果”和“同义词合并”做进一步优化。

10. 总结

今天的文章针对上一篇文章中的2点不足:自动分词有些词没有正确切分和一个词存在多种同义的表达,在分词工具中使用“加词调效果”和“同义词合并”功能进行了优化,最后在Gephi中生成网络图。

近期不少同学采集音乐评价、电影评论、短视频评论、微博博文和评论做样本数据,分词后做进一步研究,我们近期将使用这几种素材做分词和Gephi可视化实验并发布出来。


鲜花

握手

雷人

路过

鸡蛋

最新评论

GMT+8, 2024-5-23 11:54