在经管之家论坛上看到一个同名帖子,做了如下分享:
- 一个文本分类的实例,数据是 The Blog Authorship Corpus 博客数据,利用 Gensim 库中的 Word2Vec 深度学习模型创建文本特征,进而用 GraphLab Create中的机器学习工具进行分类和回归分析。
- 所需要的 Python 包有:
- BeautifulSoup - 用于解析原始博客文章。
- NLTK (包括下载stopwords and punkt ) - 用于文本预处理。
- Gensim - 用于 Word2Vec 深度学习。
- GraphLab Create - 用于分类、回归、数据工程和评估
|
|
|
|
|
共 6 个关于本帖的回复 最后回复于 2021-11-2 11:58