怎样理解集搜客文本分析工具中LDA分析生成的可视化图

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2025-3-7 17:03

沙发
wangyong 版主 发表于 2025-3-7 17:03:45 | 只看该作者
本帖最后由 wangyong 于 2025-3-10 10:29 编辑

在建模完成后,集搜客生成了一个交互式可视化 HTML 页面,用于展示 LDA 主题模型的分析结果。
主要分为两个部分:
1. 左侧散点图(主题分布)
每个点代表一个主题,点的大小和位置有特定含义:
点的大小:表示该主题在所有文档中的占比(覆盖的文档数量)。点越大,说明该主题涵盖的文档越多,即在整个数据集里较常见。 点越小,说明该主题的文档较少,可能是较小众的主题。

点的距离 :
距离近:表示这些主题内容相似(可能共享很多相同的关键词)。 距离远:表示这些主题内容差异大(主题独立性强)。
如果所有点都紧密分布,说明主题之间可能有较强的相关性;如果点分散,说明主题区分度较高。

2. 右侧条形图(主题关键词)
显示选定主题的高频关键词,用来解释该主题的主要内容。
红色条形:该词在当前主题中的占比(越高,表示该词对该主题贡献大)。蓝色条形:该词在整个数据集中的出现频率(越高,表示它是常见词)。
λ 滑动条的作用:
λ = 1.0(默认):显示该主题最具代表性的词(主题特有词)。 λ = 0.0:显示该主题的常见词(可能存在噪音)。

示例解读:以上图为例:
1、主题1最大,代表该主题覆盖的数据最多(占据最多文档)。
2、主题1和主题3有重叠,说明它们共享较多的相似词汇,在语义上有较强关联。
3、主题1与主题4距离最远,代表这两个主题在词汇分布上差异较大。
4、选中主题1后,右侧展示的是按贡献度降序排列的前30个关键词: 红色条形:该词在当前主题中的重要性(权重)。 蓝色条形:该词在整个数据集中出现的频率。如果红色部分远大于蓝色,说明该词是该主题的专属词;如果两者接近,说明该词在多个主题中都很常见。
5、由于 λ=1,当前排序是按贡献度排列,而不是区分度,适当调整 λ 可查看更具代表性的关键词,比如0.6~0.8。






本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为

热门用户

GMT+8, 2025-3-28 16:56