集搜客GooSeeker网络爬虫 › 官方文档 ›资讯 › 查看内容

文本聚类分析软件的安装和使用方法

2024-12-9 15:49| 发布者: Fuller| 查看: 5059| 评论: 1

摘要: 提供一种尽量便利的手段，让用户能够利用kmeans聚类算法，对文本进行聚类、可视化观察、对比在多种情况下的聚类效果。用户导入指定格式的数据，选择目标类别数，即可启动聚类 ... ... ...

1. 目的和作用

发布这个功能的目的是：提供一种尽量便利的手段，让用户能够利用kmeans聚类算法，对文本进行聚类、可视化观察、对比在多种情况下的聚类效果。

用户导入指定格式的数据，选择目标类别数，即可启动聚类。待完成后，可看到一个饼图，表示类别划分的比例，辅以其他效果评估参数，这些参数的值越大越好，用以判断分成这个数量的类别是否合适。

为了方便观察效果，将聚类结果降维到2d和3d，用散点图显示出来，可以看类别之间分割和交叉程度，方便主观上判断是否选择了合适的类别数量。

接着还可以重新选择类别数，再次聚类。多次聚类以后，分别对比观察，确定一个最合适的类别数量。

还可以看每个类别的特征词排序，排在最前面的词是贡献最大的。通过观察，可以识别每个类别代表的语义，也可以观察哪些词导致了类别混淆。

2. 用法说明

2.1 功能入口

聚类功能只能在集搜客数据管家软件的浏览器中使用，其他浏览器无法使用该功能
点击数据管家左栏菜单“词”，进入集搜客分词和情感分析软件（如上图）
点击分词软件的左栏菜单“更多计算”（如上图），进入扩展功能说明页。【注意】请阅读该网页内容，需要把扩展程序下载到本地电脑的硬盘上。
点击左栏菜单“文本聚类”，即可进入。（如下图）
进入以后会提示安装扩展程序，需要在对话框中选中前一步下载的扩展程序，即可完成安装。（如下图）

2.2 两种数据源

【千万注意】：不可向同一个任务重复导入相同的数据，否则会对聚类结果产生巨大的不良影响。

可导入的数据表有两种，都是excel格式，他们各自有不同的表头，一定要严格按照界面上的提示设置表头，否则无法导入。可以只导入一种数据源，也可以都导入，他们是分别进行聚类计算的。也可以追加导入更多的数据。

原始数据表

表头字段至少有两个：序号、正文。正文就是用来聚类的文字。这个格式也是集搜客分词和情感分析软件所要求的。

选词匹配表

表头字段至少有三个：序号、原数据、打标词。该表是从集搜客分词和情感分析软件导出的，是在人工选词以后导出的。通过人工选词，规定了聚类计算所用的词典。如果选的词很合理，会大幅度提高聚类的效果。同时，根据聚类效果，可以反过来评估在分词工具中选的词是否合适，是否对文本的语义具有最好的体现。

2.3 三个观察角度

由于文本聚类属于非监督机器学习，采用统计学习的算法，自主判断文本所属的类别。由于用文字表述语义是很复杂的，往往聚类效果不佳，所以，需要从多个角度去观察和判断效果是否可接受。

聚类结果和比例图

通过在界面上浏览原始数据和归入的类别，判断这次聚类是否合理。

右栏有一个比例图，可以观察分的是否均匀（【注意鉴别】有时候看起来分的很均匀，却有可能会把归属于A的划归B，而把归属B的划归A，虽然很均匀，但是归属划错了）。右栏最后有多个评估参数，这些参数值越大越好。

TopN特征词

文字的语义是用特征词体现出来的。一段文字中，有大量没有意义的词。在聚类计算中，利用tf-idf提供的能力，以及SVD算法提供的能力，聚类程序自动从文本中提取特征词，尽量地做到只选用最有意义的词。

然而，自动算法的识别能力是有限的，仅仅依赖于词在文本中的统计特性计算出来的结果有时候不太能准确选出对语义有贡献的词。

通过观察TopN特征词，可以看到所选的特征词是否都有意义。这些特征词是经过排序的。主要看最前面的词是否符合这个类别的语义。如果自动选词总是不满意，可以在集搜客分词和情感分析软件中手工选词，然后把导出的选词匹配表导入到聚类软件中做分析。

低维可视化

每个类别的中心是用一个词向量表示的，每个文本也是用一个词向量表示的。这些向量的维度十分高，本软件缺省控制在500维以内。无法直观观察高维的向量。所以，利用SVD算法，将高维数据变成2维和3维数据，在2d平面或3d空间中观察代表每个文本的数据点。观察他们是否有很好的分割，如果交叉的不多，就是很好的分割。

2.4 数据导出

点击下载结果按钮，可以导出聚类结果表和特征词。特征词是一个json文件，也是一个普通的文本文件，方便用程序进行处理。

每种数据表以及每个目标类别数都可以分别导出这些数据。

3. 安装说明

文本聚类等扩展功能有一个入口首页（见下图），对扩展功能做了说明，请注意阅读其中的扩展模块安装说明。下面是简要说明：

用户可以选择两种安装方案之一，以后也可以通过点击“升级聚类模块”按钮的方法进行切换。

方案1：安装可运行程序：是一个zip软件包（【不可手工解压】）。这个方案虽然安装简单，但是MacOS用户需要额外做一次隐私与安全性方面的设置。
方案2：安装源代码：只有一个文件cluster.py。这个方案必须手工安装所需的python软件包。

3.1 可运行程序版本说明

如果安装可运行程序，需要分别为MacOS、Windows、Linux选择对应的版本。程序文件的名字就能看出来对应哪个操作系统，例如，下面的1.4.0表示版本号，版本号前面的Mac和Win64表示操作系统：

cluster.runner_Mac_1.4.0_arm64.zip：用于新版MacOS电脑
cluster.runner_Mac_1.4.0_x64.zip：用于老版MacOS电脑
cluster.runner_Win64_1.4.0.zip：用于Windows操作系统（win10及以上和对应的server版本）的电脑

3.2 可运行程序安装方法

从分词软件跳转到聚类功能后，会看到一个说明网页（如上图），仔细阅读安装方法。聚类功能需要下载一个程序模块，下载到硬盘某个位置，当进入聚类功能的时候，会提示安装，此时选择下载的程序模块。

有两个下载选择：下载源代码和下载可执行程序。

选择安装可执行程序的话，需要加QQ群，在群文件夹下载cluster.runner.zip。

3.3 MacOS用户设置隐私和安全性

【MacOS用户一定要做这一步】，否则聚类功能运行的时候都是失败。具体参看教程《运行Apple无法验证的程序的方法》。

3.4 源代码方案的安装方法

如果下载源代码，要注意python和相关程序包的配套问题。尤其在MacOS中，可能存在多个python版本，但是，必须存在/usr/bin/python3才行，而且安装所需程序包的时候，也必须使用/user/bin/pip3 -U命令，不能使用其他版本的pip3安装所需程序包。具体要安装哪些配套软件包参看聚类+其他功能入口页面。

3.5 更换和升级聚类模块的方法