GooSeeker
产品
资源
教程
视频教程
使用交流
资讯
开启辅助访问
切换风格
请
登录
后使用快捷导航
没有帐号?
立即注册
登录
|
注册
快捷导航
资讯
常见问题
使用交流
python交流
视频教程
资源发布公告
数学建模交流
论坛
›
搜客社区
›
使用交流
1
549
怎样理解集搜客文本分析工具中LDA分析生成的可视化图
王建国
于 2025-3-7 16:19
发表
[复制链接]
[只看楼主]
[打印]
[上一主题]
[下一主题]
王建国
积分
724
精华
0
威望
240
金钱
2
最后登录 1970-1-1
加为好友
发送消息
访问家园
怎样理解集搜客文本分析工具中LDA分析生成的可视化图
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有帐号?
立即注册
x
收藏
0
转播
支持
0
反对
0
举报
使用道具
|
回复
共 1 个关于本帖的回复 最后回复于 2025-3-7 17:03
wangyong
积分
10603
精华
4
威望
4430
金钱
3
最后登录 1970-1-1
加为好友
发送消息
访问家园
个人资料
主题列表
发消息
沙发
wangyong
版主
发表于 2025-3-7 17:03:45
|
只看该作者
本帖最后由 wangyong 于 2025-3-10 10:29 编辑
在建模完成后,集搜客生成了一个交互式可视化 HTML 页面,用于展示 LDA 主题模型的分析结果。
主要分为两个部分:
1. 左侧散点图(主题分布)
每个点代表一个主题,点的大小和位置有特定含义:
点的大小:
表示该主题在所有文档中的占比(覆盖的文档数量)。
点越大,说明该主题涵盖的文档越多,即在整个数据集里较常见。 点越小,说明该主题的文档较少,可能是较小众的主题。
点的距离 :
距离近:表示这些主题内容相似(可能共享很多相同的关键词)。 距离远:表示这些主题内容差异大(主题独立性强)。
如果所有点都紧密分布,说明主题之间可能有较强的相关性;如果点分散,说明主题区分度较高。
2. 右侧条形图(主题关键词)
显示选定主题的高频关键词,用来解释该主题的主要内容。
红色条形:该词在当前主题中的占比(越高,表示该词对该主题贡献大)。蓝色条形:该词在整个数据集中的出现频率(越高,表示它是常见词)。
λ 滑动条的作用:
λ = 1.0(默认):显示该主题最具代表性的词(主题特有词)。 λ = 0.0:显示该主题的常见词(可能存在噪音)。
示例解读:以上图为例:
1、主题1最大,代表该主题覆盖的数据最多(占据最多文档)。
2、主题1和主题3有重叠,说明它们共享较多的相似词汇,在语义上有较强关联。
3、主题1与主题4距离最远,代表这两个主题在词汇分布上差异较大。
4、选中主题1后,右侧展示的是按贡献度降序排列的前30个关键词: 红色条形:该词在当前主题中的重要性(权重)。 蓝色条形:该词在整个数据集中出现的频率。
如果红色部分远大于蓝色,说明该词是该主题的专属词;如果两者接近,说明该词在多个主题中都很常见。
5、由于 λ=1,当前排序是按贡献度排列,而不是区分度,适当调整 λ 可查看更具代表性的关键词,比如0.6~0.8。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有帐号?
立即注册
x
举报
使用道具
回复
支持
反对
返回列表
B
Color
Image
Link
Quote
Code
Smilies
高级模式
您需要登录后才可以回帖
登录
|
立即注册
发表回复
回帖并转播
回帖后跳转到最后一页
回复
推荐板块
使用交流
常见问题
数学建模交流
python交流
视频教程
精彩推荐
话题分析(NMF模型和LDA模型)软件的安装和
运行Apple无法验证的程序的方法
文本聚类分析软件的安装和使用方法
利用AI阅读和分析文本:扣子COZE记录用户反
在网页片段内直观标注——以B站评论采集为
热门话题
1
【集微库】微博采集工具箱使用常见问题
2
集搜客文本分词标注工具(V1版)
3
怎样使用快捷采集(以采集京东评论为例)
4
有没有办法采集机场的出租车信息?
5
获得积分的好方法:转发小程序、QQ群、微信
6
【求助】关于采集阿里巴巴国际站访客详情分
7
GooSeeker分词,情感分析和关键词抽取平台使
8
新浪微博_博主主页
9
怎样采集抖音关键词搜索后的数据
10
集搜客GooSeeker 网络爬虫版本发布公告
热门用户
Fuller
帖子:10592
访问主页>>
wangyong
帖子:1719
访问主页>>
gbkuce
帖子:0
访问主页>>
GMT+8, 2025-3-28 16:56
快速回复
快速发帖
返回顶部
返回列表
共 1 个关于本帖的回复 最后回复于 2025-3-7 17:03