用集搜客分词软件和Jupyter Notebook做文本分析和数据探索的案例汇总

Fuller

集搜客分词和文本分析软件可以导出多种数据表，为了对这些数据做进一步的数据分析和数据探索，比如，做一些描述性统计，我们在这里汇总了一系列数据分析和数据挖掘处理过程。这些处理过程都用Jupyter Notebook的格式，把python程序放在一个个code cell中。

一组处理过程压缩成了一个zip程序包，下载下来以后，解压到合适的目录，然后把集搜客分词和文本分析软件导出的数据表放在 data\raw 文件夹中，执行notebook中的cell，就能看到处理结果。

如果你需要某种特别的处理程序，请跟帖说明，我们将设法开发处理程序。

下面是已经做好的处理程序包和功能：
1. Excel对应的功能：
Jupyter Notebook模板下载：
1.1. 展示数据维度(行列数)
1.2. 展示数据表结构信息
1.3. 查看数据各列格式
1.4. 检查数据空值
1.5. 查看唯一值
1.6. 查看数据表的值
1.7. 查看列名称
1.8. 处理空值(删除或填充)
1.9. 数据替换
1.10. 大小写转换
1.11. 更改数据格式
1.12. 更改列名称
1.13. 显示前n行
1.14. 显示后n行
1.15. 删除重复值
1.16. 设置索引列
1.17. 数据表合并
1.18. 排序(按索引，按数值)
1.19. 分组与查找
1.20. 按“词性”统计标签词的总数
1.21. 数据提取
1.22. 数据筛选
1.23. 数据汇总
1.24. 数据采样
1.25. 描述统计
1.26. 相关分析
1.27. 数据输出成excel表

数据分析理论参考
1. 《社交网络分析介绍》

马涌河畔 · 发表于 2021-3-3 17:34:17

1，对集搜客分词工具导出的词频词性表做进一步分析

下面这个帖子是针对分词和情感分析软件导出的词频统计表做的探索：
Jupyter Notebook数据分析实验：用Dataframe查询词频统计表
完整的探索过程和数据文件可以下载这个打包文件查看：

《在Jupyter Notebook中将分词结果转换成数组或矩阵》：以选词结果表为例，讲解怎样从excel转换成pandas dataframe，然后转换成numpy array和matrix

《共词分析中的共词关系是怎样得到的？》：讲解了GooSeeker分词和情感分析软件导出的选词矩阵和共词矩阵的关系，而且可以看到，要做进一步的统计分析，选词矩阵是最重要的输入数据。

《在Jupyter Notebook中为GooSeeker分词结果计算tf-idf》：讲解了怎样在Jupyter Notebook中为词频表、选词表、选词矩阵表计算TF-IDF，跟讲解Excel中同样计算的这篇文章对应《GooSeeker分词和情感分析的结果怎样计算tf-idf》。

《知乎话题文本分词后的共词矩阵怎样引入词语距离因素》：如果要对长文本做共词分析，应该根据词间距进行过滤，因为长文本形成共词关系的概率太大了，应该把远距的共词删选掉。本notebook就是达到这个目的，但是本notebook介绍了一种粗糙的方法，下一个notebook是精确过滤，而且同时修改选词匹配表和选词矩阵表。

《马蜂窝游记文本分词后以词语间距为筛选条件生成共词矩阵和社会网络图》：用精确的算法，根据词语之间的距离过滤GooSeeker分词和情感分析软件生成的选词匹配表和选词矩阵表，然后利用矩阵运算得到共词矩阵并画社交网络关系图

《知乎话题文本根据词语间距筛选后生成共词矩阵并画图和存成excel》：上一篇notebook实现了修改选词匹配表和选词矩阵表，也生成了新的共词矩阵，但是新的共词矩阵没有存成excel。本篇就实现共词矩阵存excel，今后将excel文件交给Gephi等分析工具，可以画出来更加美观的社交网络图。

Fuller · 发表于 2021-8-2 11:22:34

2，规划notebook的目录和内容结构

《Jupyter Notebook在机器学习领域的项目目录结构规划》：这篇文章值得好好读一下。GooSeeker发布的所有Juypter Notebook都相当于是数据挖掘的模板，都有统一的目录规划，用户下载下来以后，可以在这个模板基础上添加更多代码，做更复杂的处理

《用Jupyter Notebook的模板管理数据分析过程》这篇文章对怎么规划notebook内容做了进一步说明

Fuller · 发表于 2021-8-2 11:32:05

3，基本用法探索

《实验Jupyter Notebook的code cell的输出结果》：罗列了的常用的Python程序处理过程，也就是怎样写程序代码部分

《用Jupyter notebook写文档的常用格式》：罗列了常用的markdown格式，也就是怎么写文档部分

Fuller · 发表于 2021-8-2 11:37:16

4，像Excel一样做常见的描述性分析

《集搜客分词结果表用Jupyter Notebook做统计分析—对应Excel功能》：这个notebook就是主贴提到的notebook，一些excel常用的统计与python做了对比

Fuller · 发表于 2021-8-3 09:28:24

5，用Jupyter Notebook抽取数据和文本内容

《在Jupyter Notebook中用python提取pdf表格及文本内容》：讲解了怎样从pdf文件中抽取需要的文本内容和表格数据。我认为相比于编写大块的python代码，放在notebook中处理更加合适，因为从pdf中抽取内容很繁琐，容易抽取位置对不上，而在notebook中，反复交互调整，可以很完美地抽取数据。

Fuller · 发表于 2021-8-3 09:33:43

6，画可视化分析图表
点击进入下面的文章中，可下载Jupyter Notebook文件

《微博内容分词后怎样用Jupyter Notebook画词云图》：虽然集搜客分词和情感分析可以一键生成词云图，但是用python编程可以更好驾驭词云图

《情感分析结果怎样用Jupyter Notebook生成走势图等图表》：只要有数据，而且做了合适的清洗，要画成图其实很容易，只要熟练使用Python的画图程序包就行

《如何运行数据分析和可视化Jupyter Notebook模板》：讲解了安装Anaconda和导入画图程序包的过程

《分析电商评论发现消费者话题-生成走势图(Jupyter Notebook)》

Fuller · 发表于 2021-8-3 09:51:28

7，LDA主题分析
点击进入下面的文章中，可下载Jupyter Notebook文件

《微博内容分词后怎样用JupyterNotebook做LDA主题模型分析》：详细讲解了LDA的计算步骤，罗列了必要的参考资料

《微博内容分词并手工选词后用JupyterNotebook做LDA主题分析》：使用GooSeeker分词和文本分析软件，做了手工选词，实际上是做了特征词的选择，那么在这个基础上再做话题分析，就会精准很多。

《分析电商评论发现消费者话题-LDA主题分析篇(Jupyter Notebook)》：讲解了用LDA模型分析电商网站上的商品评论。由于商品评论的话题是相当封闭的，所以，LDA分析出来的话题一定会比较精准

Fuller · 发表于 2021-8-3 10:10:20

8，操作地图api和清洗地址数据
点击进入下面的文章中，可下载Jupyter Notebook文件

《Jupyter Notebook怎样获取微博签到地的经纬度并在地图上显示》：根据采集到的地名信息，经过地名清洗和补充，提交给百度地图api，翻译成经纬度

《Jupyter Notebook怎样获取安居客二手房小区经纬度并在地图上显示》

Fuller · 发表于 2021-8-3 10:18:17

9，社交图谱的中心性计算

讲解了三大中心性的计算方法：接近中心度、中介中心度、点度中心度。再结合使用集搜客文本分析和情感分析软件，可以更灵活地计算中心性。

《怎样使用Jupyter Notebook计算接近中心度》

《如何使用Jupyter Notebook计算中介中心度(betweenness centrality)》

《怎样利用集搜客的共词矩阵表计算点度中心性(Degree centrality)》

《Jupyter Notebook使用Python计算特征向量中心度(Eigenvector Centrality)》：讲解了使用networkx函数计算特征向量中心性的方法，并在另一个notebook中讲解了函数背后的原理《特征向量中心性计算中的迭代是怎么回事？》

《用networkx和python编程可视化分析共现词关系图》：讲解了怎样用共词矩阵画图，也就是社会关系分析图，是用networkx画的graph。然后进行中心性分析。

《GooSeeker共词矩阵Excel怎样转换成Gephi支持的csv格式》：这是Gephi使用方法系列中的一篇，讲解怎样将共词矩阵转换成Gephi要求的边列表csv。

《用MST(minimum or maximum spanning tree)算法简化共现词关系图》：针对长文本生成的共词关系社会网络图，采用MST算法化简后再观察点度中心性和画网络图。

《使用Python设置边权重阈值裁剪共词关系社会网络图》：根据设定的阈值裁剪边，从而简化图，便于观察图的中心度和核心词。

《对共词关系求协方差矩阵后是否有更好的社会网络分析结果？》：使用GooSeeker分词和情感分析软件生成选词矩阵，为其求协方差，然后在生成networkx图进行分析。

《用皮尔森相关系数表示共词矩阵是否能用来做社会网络分析》：类似《对共词关系求协方差矩阵后是否有更好的社会网络分析结果？》，但是换成了Pearson相关系数衡量词与词之间的距离关系。使用networkx进行分析，观察点度中心性，观察关系最强的相关的词。

《精选词后求共词关系的协方差矩阵进行社会网络分析》：在GooSeeker分词软件界面上，利用文档频率排序，删除文档频率特别低的词和特别高的词，再进行分析，会得到一个更好的结果，无论是通过MST还是根据阈值剪裁，得到的结果比较稳定。

《社区发现算法Girvan-Newman(GN)是否能应用于共词矩阵？》：演练怎样用Girvan-Newman算法对GooSeeker分词软件生成的共词矩阵进行分析，期望发现语义聚类

《对共词关系求协方差矩阵后再用Girvan-Newman算法做社区发现》：针对长文本，直接在共词关系上应用Girvan-Newman算法的效果不好，可以在选词矩阵上，先计算协方差矩阵，然后对社交网路图进行裁剪，最后再使用Girvan-Newman算法，词义聚类效果更好。

《知乎话题文本分词后的共词矩阵怎样引入词语距离因素》：为了防止文本长短不一造成的影响，用一个距离参数对共现关系进行过滤

Fuller · 发表于 2021-8-3 10:20:38

10，磁盘文件和目录管理

《电商图片下载后怎样使用Jupyter Notebook合并目录》：比如，下载下来的图片，按照不同的目标网址放在不同的磁盘目录上，如果要汇总在一起，可以参考这个notebook

Fuller · 发表于 2021-8-3 10:28:58

11，文本挖掘算法
点击进入下面的文章中，可下载Jupyter Notebook文件

《Jupyter Notebook使用sklearn的TF-IDF算法计算关键词权重》：经常有同学问：GooSeeker文本分词和情感分析软件中的自动抽取关键词是怎么实现的？其实有很多成熟的算法都可以做这个事情，比如，本文介绍的TF-IDF算法，这是一个最常用的算法，虽然集搜客分词和文本分析的算法不完全是tf-idf，而是做了一些微调。

《新闻内容分词后在Jupyter Notebook中使用TF-IDF算法提取关键词》：用实际数据将tf-idf与GooSeeker文本分词和情感分析软件的关键词抽取结果做了对比

《在Jupyter Notebook中用Python做PageRank算法计算》：介绍了两种PageRank算法，可用于社交网络分析

《Jupyter Notebook使用Python做TextRank关键词提取测试》：TextRank算法的最大优点：不需要统计整个语料库，只需要针对单篇文章进行计算即可提取关键词

《科技政策文本分词后在Jupyter Notebook中用TextRank做关键词提取》：上一篇用的是手工构造的实验数据，这一篇是实际场景下，使用GooSeeker分词软件生成的分词效果表，对词语做TextRank分析。

《Jupyter Notebook使用Python做PMI点互信息计算》：讲了用点互信息计算2个词之间或者3个词之间是否有相邻关系，如果出现相邻的概率很高，很可能应该把他们当成一个短语对待。

《Jupyter Notebook使用Python做中英文自然语言依存句法分析实验》：概要讲解了什么是依存句法，并以spyCy作为依存句法处理程序包，用Python演示了依存句法分析
《在Jupyter Notebook中使用spaCy可视化中英文依存句法分析结果》：演示了怎样用Spacy可视化显示依存句法分析结果

《Jupyter Notebook使用gensim做Word2Vec计算》：讲解了gensim程序库中的word2vec函数的用法

《Jupyter Notebook使用Gensim库做中文Word2Vec模型计算》：讲解了在实际数据场景下，怎样使用word2vec算法为GooSeeker分词软件生成的结果数据生成词向量。

《在Jupyter Notebook中使用word2vec和k-means进行词聚类》：讲解了结合word2vec和k-means进行词聚类的处理过程

Fuller · 发表于 2021-8-12 18:25:16

12，社会科学计算
点击进入下面的文章中，可下载Jupyter Notebook文件

《JupyterNotebook做层次分析法(AHP)权重计算》：用python实现层次分析法计算和一致性检验，并用一个例子讲解使用方法

《如何使用Jupyter Notebook做最小二乘法(Least Squares Method)计算》：讲解怎样利用Python的自小二乘法计算函数做多项式拟合

《Jupyter Notebook使用Python做K-Means聚类分析》：演示了k-means算法的Python程序及其计算结果，并用可视化工具做了展示

《机器学习库sklearn的K-Means聚类算法的使用方法》：使用sklearn的KMeans模型，只需几行Python就行了，不要像《Jupyter Notebook使用Python做K-Means聚类分析》那样写底层函数。

《Jupyter Notebook使用Python做K近邻（KNN）算法实验》：演示了KNN算法的Python函数使用方法

《社交媒体话题文本分词后用sklearn的kmeans算法做聚类分析》：用社交媒体上的真实数据，利用集搜客分词和情感分析软件生成的分词结果，展示聚类算法的使用方法
《知乎话题文本分词并选词后用sklearn做kmeans聚类计算》：用社交媒体上的真实数据，利用集搜客分词和情感分析软件生成的分词结果，跟上一篇不同，还要在分词软件上手工选词，相当于是人工的特征工程，最后进行聚类计算，展示手工选词对效果的提升。

《Gephi社会网络分析-Gephi插件的安装和使用》：重点讲解当官方源无法访问的时候，怎样使用镜像程序库源下载和安装需要的模块

《学习使用apriori算法挖掘关联关系》：解释了关联关系和相关系数的区别，用简单案例演示了apriori算法的计算结果

Fuller · 发表于 2021-9-26 15:51:54

13，大数据探索

《在Jupyter Notebook中使用pyspark操作Spark DataFrame基本功能》：讲解怎样安装和使用pyspark

《安装Jupyter Notebook并集成pyspark》：讲解了从安装Anaconda到安装pyspark

Fuller · 发表于 2021-10-12 10:51:23

14，多媒体内容分析

《使用Python提取视频文件的关键帧用于视频内容分析》：从视频文件中提取关键帧图片，可以有效提高视频内容分析的效率

Fuller · 发表于 2022-6-21 11:34:40

15、数据清洗

《微博评论采集下来后怎样把发布时间转换成统一格式》：在pandas中将微博的发布时间转换成统一的时间格式。

《Jupyter Notebook将京东商品参数数据表做行列转换》：用GooSeeker网络爬虫把京东上的商品参数采集下来以后，在导出的excel中是一行行存参数的，要转换成一列列存参数，可以参考本Jupyter Notebook。

用集搜客分词软件和Jupyter Notebook做文本分析和数据探索的案例汇总

本帖子中包含更多资源

共 24 个关于本帖的回复最后回复于 2023-9-5 16:48

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

用集搜客分词软件和Jupyter Notebook做文本分析和数据探索的案例汇总

本帖子中包含更多资源

共 24 个关于本帖的回复 最后回复于 2023-9-5 16:48

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

共 24 个关于本帖的回复最后回复于 2023-9-5 16:48