6 9274

文本分类分析实例

Fuller 于 2016-9-19 10:14 发表 [复制链接]
经管之家论坛上看到一个同名帖子,做了如下分享:
  • 一个文本分类的实例,数据是 The Blog Authorship Corpus 博客数据,利用 Gensim 库中的 Word2Vec 深度学习模型创建文本特征,进而用 GraphLab Create中的机器学习工具进行分类和回归分析。
  • 所需要的 Python 包有:
  • BeautifulSoup - 用于解析原始博客文章。
  • NLTK (包括下载stopwords and punkt ) - 用于文本预处理。
  • Gensim - 用于 Word2Vec 深度学习。
  • GraphLab Create - 用于分类、回归、数据工程和评估

举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2021-11-2 11:58

Fuller 管理员 发表于 2021-8-23 12:04:52 | 显示全部楼层
集搜客分词和文本分析软件的功能一直在扩展,文本分类功能已经有了,直接自由设置多个类别,而且类别还可以分成2个层次,设置好以后启动分类匹配,就可以在分类检索那里看到分好的类:
分类.png

另外,应该下载数据管家软件,这是最新版网络爬虫软件,是增强的网络爬虫软件,将爬虫功能和分词功能,以及微博采集工具箱等众多功能集成在一起,通过左栏的快捷按钮进入各项功能。详细介绍参看:https://www.gooseeker.com/doc/article-514-1.html
集成界面.png




举报 使用道具
caoyuesun 中级会员 发表于 2016-10-13 10:17:39 | 显示全部楼层
有没有源码啊
举报 使用道具
ym 版主 发表于 2016-10-13 10:24:28 | 显示全部楼层
举报 使用道具
Fuller 管理员 发表于 2021-8-23 12:07:19 | 显示全部楼层

集搜客分词工具自身没有提供的功能可以找Jupyter Notebook的扩展,GooSeeker发布了很多notebook,下载下来以后调整一下代码,就可以做深度的文本挖掘:https://www.gooseeker.com/doc/thread-18414-1-2.html
举报 使用道具
tiaodaochuqing 新手上路 发表于 2021-11-2 09:24:22 | 显示全部楼层
.net 4.5的问题
举报 使用道具
gz51837844 管理员 发表于 2021-11-2 11:58:51 | 显示全部楼层

集搜客文本分词和情感分析软件是基于浏览器的web应用,使用主流浏览器就可以访问, 一般来说和你电脑的环境关系不大。
网络爬虫软件有windows版, mac版,linux版
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 21:48