快捷导航
集搜客分词和文本分析软件可以导出多种数据表,为了对这些数据做进一步的数据分析和数据探索,比如,做一些描述性统计,我们在这里汇总了一系列数据分析和数据挖掘处理过程。这些处理过程都用Jupyter Notebook的格式,把python程序放在一个个code cell中。

一组处理过程压缩成了一个zip程序包,下载下来以后,解压到合适的目录,然后把集搜客分词和文本分析软件导出的数据表放在 data\raw 文件夹中,执行notebook中的cell,就能看到处理结果。

如果你需要某种特别的处理程序,请跟帖说明,我们将设法开发处理程序。

下面是已经做好的处理程序包和功能:
1. Excel对应的功能:
Jupyter Notebook模板下载: 分词软件导出数据进行类似Excel的处理模板.zip (113.37 KB, 下载次数: 198)
举报 使用道具
| 回复

共 24 个关于本帖的回复 最后回复于 2023-9-5 16:48

马涌河畔 金牌会员 发表于 2021-3-3 17:34:17 | 显示全部楼层
1,对集搜客分词工具导出的词频词性表做进一步分析

下面这个帖子是针对分词和情感分析软件导出的词频统计表做的探索:
Jupyter Notebook数据分析实验:用Dataframe查询词频统计表
完整的探索过程和数据文件可以下载这个打包文件查看: 分词软件导出数据分析探索_词频统计表.zip (50.6 KB, 下载次数: 20)
举报 使用道具
Fuller 管理员 发表于 2021-8-2 11:22:34 | 显示全部楼层
2,规划notebook的目录和内容结构

Jupyter Notebook在机器学习领域的项目目录结构规划》:这篇文章值得好好读一下。GooSeeker发布的所有Juypter Notebook都相当于是数据挖掘的模板,都有统一的目录规划,用户下载下来以后,可以在这个模板基础上添加更多代码,做更复杂的处理

用Jupyter Notebook的模板管理数据分析过程》这篇文章对怎么规划notebook内容做了进一步说明

举报 使用道具
Fuller 管理员 发表于 2021-8-2 11:32:05 | 显示全部楼层
3,基本用法探索

实验Jupyter Notebook的code cell的输出结果》:罗列了的常用的Python程序处理过程,也就是怎样写程序代码部分

用Jupyter notebook写文档的常用格式》:罗列了常用的markdown格式,也就是怎么写文档部分
举报 使用道具
Fuller 管理员 发表于 2021-8-2 11:37:16 | 显示全部楼层
4,像Excel一样做常见的描述性分析

集搜客分词结果表用Jupyter Notebook做统计分析—对应Excel功能》:这个notebook就是主贴提到的notebook,一些excel常用的统计与python做了对比
举报 使用道具
Fuller 管理员 发表于 2021-8-3 09:28:24 | 显示全部楼层
5,用Jupyter Notebook抽取数据和文本内容

在Jupyter Notebook中用python提取pdf表格及文本内容》:讲解了怎样从pdf文件中抽取需要的文本内容和表格数据。我认为相比于编写大块的python代码,放在notebook中处理更加合适,因为从pdf中抽取内容很繁琐,容易抽取位置对不上,而在notebook中,反复交互调整,可以很完美地抽取数据。
举报 使用道具
Fuller 管理员 发表于 2021-8-3 09:33:43 | 显示全部楼层
6,画可视化分析图表
点击进入下面的文章中,可下载Jupyter Notebook文件

微博内容分词后怎样用Jupyter Notebook画词云图》:虽然集搜客分词和情感分析可以一键生成词云图,但是用python编程可以更好驾驭词云图

情感分析结果怎样用Jupyter Notebook生成走势图等图表》:只要有数据,而且做了合适的清洗,要画成图其实很容易,只要熟练使用Python的画图程序包就行

如何运行数据分析和可视化Jupyter Notebook模板》:讲解了安装Anaconda和导入画图程序包的过程

分析电商评论发现消费者话题-生成走势图(Jupyter Notebook)


举报 使用道具
Fuller 管理员 发表于 2021-8-3 09:51:28 | 显示全部楼层
7,LDA主题分析
点击进入下面的文章中,可下载Jupyter Notebook文件

微博内容分词后怎样用JupyterNotebook做LDA主题模型分析》:详细讲解了LDA的计算步骤,罗列了必要的参考资料

微博内容分词并手工选词后用JupyterNotebook做LDA主题分析》:使用GooSeeker分词和文本分析软件,做了手工选词,实际上是做了特征词的选择,那么在这个基础上再做话题分析,就会精准很多。

分析电商评论发现消费者话题-LDA主题分析篇(Jupyter Notebook)》:讲解了用LDA模型分析电商网站上的商品评论。由于商品评论的话题是相当封闭的,所以,LDA分析出来的话题一定会比较精准
举报 使用道具
Fuller 管理员 发表于 2021-8-3 10:10:20 | 显示全部楼层
8,操作地图api和清洗地址数据
点击进入下面的文章中,可下载Jupyter Notebook文件

Jupyter Notebook怎样获取微博签到地的经纬度并在地图上显示》:根据采集到的地名信息,经过地名清洗和补充,提交给百度地图api,翻译成经纬度

Jupyter Notebook怎样获取安居客二手房小区经纬度并在地图上显示



举报 使用道具
Fuller 管理员 发表于 2021-8-3 10:18:17 | 显示全部楼层
9,社交图谱的中心性计算

讲解了三大中心性的计算方法:接近中心度、中介中心度、点度中心度。再结合使用集搜客文本分析和情感分析软件,可以更灵活地计算中心性。

怎样使用Jupyter Notebook计算接近中心度

如何使用Jupyter Notebook计算中介中心度(betweenness centrality)

怎样利用集搜客的共词矩阵表计算点度中心性(Degree centrality)

Jupyter Notebook使用Python计算特征向量中心度(Eigenvector Centrality)》:讲解了使用networkx函数计算特征向量中心性的方法,并在另一个notebook中讲解了函数背后的原理《特征向量中心性计算中的迭代是怎么回事?

用networkx和python编程可视化分析共现词关系图》:讲解了怎样用共词矩阵画图,也就是社会关系分析图,是用networkx画的graph。然后进行中心性分析。

GooSeeker共词矩阵Excel怎样转换成Gephi支持的csv格式》:这是Gephi使用方法系列中的一篇,讲解怎样将共词矩阵转换成Gephi要求的边列表csv。

用MST(minimum or maximum spanning tree)算法简化共现词关系图》:针对长文本生成的共词关系社会网络图,采用MST算法化简后再观察点度中心性和画网络图。

使用Python设置边权重阈值裁剪共词关系社会网络图》:根据设定的阈值裁剪边,从而简化图,便于观察图的中心度和核心词。

对共词关系求协方差矩阵后是否有更好的社会网络分析结果?》:使用GooSeeker分词和情感分析软件生成选词矩阵,为其求协方差,然后在生成networkx图进行分析。

用皮尔森相关系数表示共词矩阵是否能用来做社会网络分析》:类似《对共词关系求协方差矩阵后是否有更好的社会网络分析结果?》 ,但是换成了Pearson相关系数衡量词与词之间的距离关系。使用networkx进行分析,观察点度中心性,观察关系最强的相关的词。

精选词后求共词关系的协方差矩阵进行社会网络分析》:在GooSeeker分词软件界面上,利用文档频率排序,删除文档频率特别低的词和特别高的词,再进行分析,会得到一个更好的结果,无论是通过MST还是根据阈值剪裁,得到的结果比较稳定。

社区发现算法Girvan-Newman(GN)是否能应用于共词矩阵?》:演练怎样用Girvan-Newman算法对GooSeeker分词软件生成的共词矩阵进行分析,期望发现语义聚类

对共词关系求协方差矩阵后再用Girvan-Newman算法做社区发现》:针对长文本,直接在共词关系上应用Girvan-Newman算法的效果不好,可以在选词矩阵上,先计算协方差矩阵,然后对社交网路图进行裁剪,最后再使用Girvan-Newman算法,词义聚类效果更好。






举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 如何采集微博博主主页并生成共现矩阵用于Ge
  • Gephi社会网络分析-网络图Force Atlas布局
  • 对共词关系求协方差矩阵后再用Girvan-Newma
  • 社区发现算法Girvan-Newman(GN)是否能应用
  • 使用GooSeeker分词和Gephi进行中文文本分析

热门用户

GMT+8, 2023-9-26 03:54