我想分析下话题:女记者远嫁西部长期遭受家暴, 比如知乎上的这个:如何看待文章《另一个拉姆》讲述的记者马金瑜远嫁西部,长期遭受家庭暴力和凌虐一事?
是不是先用爬虫软件采集这个问题的回答, 然后导入分词工具?
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2021-2-8 11:44

沙发
内容分析应用 金牌会员 发表于 2021-2-7 17:03:15 | 只看该作者
可以先用这个知乎快捷采集:知乎_独立问题所有回复采集, 把回答内容采集下来
然后用集搜客文本和分词软件进行分词,做词频统计,词云图,社交网络图


举报 使用道具
板凳
马涌河畔 金牌会员 发表于 2021-2-7 17:04:00 | 只看该作者
好的, 我先用集搜客爬虫软件做数据采集
举报 使用道具
地板
马涌河畔 金牌会员 发表于 2021-2-8 09:44:32 | 只看该作者
我把知乎问题网址:https://www.zhihu.com/question/443154151  添加到快捷采集知乎_独立问题所有回复采集, 发现只采集了1页。
需要在网址后面添加一串字符,变成这样:https://www.zhihu.com/question/443154151/answers/updated ,才能采集到全部。
如果是通过集搜客知乎关键词搜索的快捷采集得到的网址, 就不需要人工去修改,导出的结果网址已经是修改好的。

举报 使用道具
5#
马涌河畔 金牌会员 发表于 2021-2-8 10:59:57 | 只看该作者
本帖最后由 马涌河畔 于 2021-2-8 11:08 编辑

采集了知乎上的这个问题和对应的回答,一共1843条。按分词工具的要求(导入的文件至少需要2个字段:序号和正文),在快捷采集得到的excel文件中添加了一列“序号”,把列“回答内容”改名成“正文”

举报 使用道具
6#
马涌河畔 金牌会员 发表于 2021-2-8 11:44:09 | 只看该作者
登录集搜客中文分词和情感分析软件,新建一个任务, 导入上面处理过的excel文件。
导入完成后, 不需要做其它, 就可以直接下载分词后的”词频统计表“和”分词效果表“

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-27 07:48