文本分类分析实例

Fuller

在经管之家论坛上看到一个同名帖子，做了如下分享：

一个文本分类的实例，数据是 The Blog Authorship Corpus 博客数据，利用 Gensim 库中的 Word2Vec 深度学习模型创建文本特征，进而用 GraphLab Create中的机器学习工具进行分类和回归分析。
所需要的 Python 包有:

BeautifulSoup - 用于解析原始博客文章。
NLTK (包括下载stopwords and punkt ) - 用于文本预处理。
Gensim - 用于 Word2Vec 深度学习。
GraphLab Create - 用于分类、回归、数据工程和评估

Fuller · 发表于 2021-8-23 12:04:52

集搜客分词和文本分析软件的功能一直在扩展，文本分类功能已经有了，直接自由设置多个类别，而且类别还可以分成2个层次，设置好以后启动分类匹配，就可以在分类检索那里看到分好的类：

另外，应该下载数据管家软件，这是最新版网络爬虫软件，是增强的网络爬虫软件，将爬虫功能和分词功能，以及微博采集工具箱等众多功能集成在一起，通过左栏的快捷按钮进入各项功能。详细介绍参看：https://www.gooseeker.com/doc/article-514-1.html

caoyuesun · 发表于 2016-10-13 10:17:39

有没有源码啊

ym · 发表于 2016-10-13 10:24:28

caoyuesun 发表于 2016-10-13 10:17
有没有源码啊

实例的数据
http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

Fuller · 发表于 2021-8-23 12:07:19

caoyuesun 发表于 2016-10-13 10:17
有没有源码啊

集搜客分词工具自身没有提供的功能可以找Jupyter Notebook的扩展，GooSeeker发布了很多notebook，下载下来以后调整一下代码，就可以做深度的文本挖掘：https://www.gooseeker.com/doc/thread-18414-1-2.html

tiaodaochuqing · 发表于 2021-11-2 09:24:22

.net 4.5的问题

gz51837844 · 发表于 2021-11-2 11:58:51

tiaodaochuqing 发表于 2021-11-2 09:24
.net 4.5的问题

集搜客文本分词和情感分析软件是基于浏览器的web应用，使用主流浏览器就可以访问，一般来说和你电脑的环境关系不大。
网络爬虫软件有windows版， mac版，linux版

文本分类分析实例

共 6 个关于本帖的回复最后回复于 2021-11-2 11:58

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

文本分类分析实例

共 6 个关于本帖的回复 最后回复于 2021-11-2 11:58

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

共 6 个关于本帖的回复最后回复于 2021-11-2 11:58