|
在共词矩阵中,所有数字都是“文档”的数量,不是词频,比如,一个文档中同一个词可能出现3次,这个词的词频就是3,而出现的文档数是1 。
非对角线的数字是两个不同的词同时出现的文档数量
对角线是某个词出现在多少个文档中。
在做网络分析的时候,一般情况下都需要把对角线设置成0。不然的话,在某些情况下会影响分析结果。如果用网络图表示共词关系,如果对角线不为0,那么就有一个自环边,会影响很多图计算算法。比如,图切割、最小权重路径等等。
这里有一系列使用python和networkx在notebook中做图分析的例子:https://www.gooseeker.com/doc/thread-18414-1-1.html
|
|
共 4 个关于本帖的回复 最后回复于 2022-12-29 10:32