经管之家论坛上看到一个同名帖子,做了如下分享:
  • 一个文本分类的实例,数据是 The Blog Authorship Corpus 博客数据,利用 Gensim 库中的 Word2Vec 深度学习模型创建文本特征,进而用 GraphLab Create中的机器学习工具进行分类和回归分析。
  • 所需要的 Python 包有:
  • BeautifulSoup - 用于解析原始博客文章。
  • NLTK (包括下载stopwords and punkt ) - 用于文本预处理。
  • Gensim - 用于 Word2Vec 深度学习。
  • GraphLab Create - 用于分类、回归、数据工程和评估

举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2021-11-2 11:58

来自 4#
Fuller 管理员 发表于 2021-8-23 12:04:52 | 只看该作者
集搜客分词和文本分析软件的功能一直在扩展,文本分类功能已经有了,直接自由设置多个类别,而且类别还可以分成2个层次,设置好以后启动分类匹配,就可以在分类检索那里看到分好的类:


另外,应该下载数据管家软件,这是最新版网络爬虫软件,是增强的网络爬虫软件,将爬虫功能和分词功能,以及微博采集工具箱等众多功能集成在一起,通过左栏的快捷按钮进入各项功能。详细介绍参看:https://www.gooseeker.com/doc/article-514-1.html





本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
沙发
caoyuesun 中级会员 发表于 2016-10-13 10:17:39 | 只看该作者
有没有源码啊
举报 使用道具
板凳
ym 版主 发表于 2016-10-13 10:24:28 | 只看该作者
举报 使用道具
5#
Fuller 管理员 发表于 2021-8-23 12:07:19 | 只看该作者

集搜客分词工具自身没有提供的功能可以找Jupyter Notebook的扩展,GooSeeker发布了很多notebook,下载下来以后调整一下代码,就可以做深度的文本挖掘:https://www.gooseeker.com/doc/thread-18414-1-2.html
举报 使用道具
6#
tiaodaochuqing 新手上路 发表于 2021-11-2 09:24:22 | 只看该作者
.net 4.5的问题
举报 使用道具
7#
gz51837844 管理员 发表于 2021-11-2 11:58:51 | 只看该作者

集搜客文本分词和情感分析软件是基于浏览器的web应用,使用主流浏览器就可以访问, 一般来说和你电脑的环境关系不大。
网络爬虫软件有windows版, mac版,linux版
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-23 23:52