有效期2601-01-25

扩展功能说明

通过安装扩展模块,增强了GooSeeker分词和情感分析软件的文本挖掘功能。 可用的扩展功能罗列在本网页的左栏菜单中。这些扩展模块安装并运行在用户的本地电脑上。 集搜客数据管家软件 将调用扩展模块,实现对 分词和情感分析软件 的扩展。所以,需要分别安装 数据管家软件 和 扩展模块。

我们将陆续发布一系列扩展模块,将逐步涵盖文本分类、主题分析、基于机器学习的其他文本分析,以及视频分析等等。下面是已经发布的模块:

1. 扩展模块的安装方法

如果没有安装 集搜客数据管家软件(版本号V14.0.0及其以上)请点击链接下载

  1. 集搜客数据管家 软件中,点击左栏按钮“词”,即可打开 分词和情感分析软件 的界面
  2. 点击 分词和情感分析软件 的左栏菜单项:“聚类+其他”,就会再次进入本网页
  3. 点击本网页左栏的功能菜单(例如,文本聚类),如果还没有安装扩展模块,会弹出提示框,提示您下载和安装。
    • 下载扩展模块:(如何选择请看第2章))方案1(优选)从QQ群下载cluster.runner.zip【不可解压】;(方案2)点击第2章的下载链接,将cluster.py文件下载到本地硬盘
    • 安装扩展模块:点击安装按钮,选中硬盘上刚刚下载的扩展模块文件(py或zip)
  4. (只有方案2需要做)安装配套的package,具体参看第2章。
  5. 【MacOS用户注意】如果采用(方案1)安装zip,由于不是从App Store下载的,请看教程进行授权
  6. 【Windows用户注意】如果采用(方案2),如果不清楚什么是Python的虚拟运行环境,请先了解Python虚拟运行环境再做决定

2. 选择安装方案和安装配套的Python package

  1. 文本聚类 + LDA分析合一模块:优选方案1,注意【zip文件不要手工解压,由数据管家软件使用】
    • cluster.runner.zip【不可解压】:请加入集搜客官方QQ群(例如:472442022),从群文件夹下载windows或者MacOS对应的版本。
      • 缺点是:安装到MacOS操作系统时,需要额外的授权过程
      • 优点是:一步到位,不需要操心Python和各种package的配套和下载问题。
    • cluster.py:点击本链接即可下载。通常下载到硬盘的“下载”文件夹,安装的时候请在那里找。
      • 缺点是:用户必须自行安装Python(3.9及其以上)、所需的package。如下所示安装package:
        (windows用户)
        pip3 install -U pandas openpyxl loguru python-docx pyinstaller PyPDF2 xlrd scikit-learn jieba matplotlib pyLDAvis
        (MacOS用户)
        /usr/bin/pip3 install -U pandas openpyxl loguru python-docx pyinstaller PyPDF2 xlrd scikit-learn jieba matplotlib pyLDAvis
      • 优点是:用户可以修改源代码,微调其中采用的参数,以便调整聚类效果。

其他Python源代码:基于Jupyter Notebook

虽然无法利用 集搜客数据管家软件 的可视化图形界面,但是,覆盖的功能更多。在notebook中,使用python源代码对 GooSeeker分词和情感分析软件 生成的数据做进一步挖掘,比如,聚类、社会网络分析、数据清洗、LDA分析等等。请进《 用集搜客分词软件和Jupyter Notebook做文本分析和数据探索的案例汇总

问题反馈