11#
yaya224 新手上路 发表于 2018-7-4 16:59:50 | 只看该作者
知乎-所有独立回复问题采集
https://www.zhihu.com/question/25529377/answer/105056648
谢谢
举报 使用道具
12#
baogao_6 新手上路 发表于 2018-7-4 17:23:12 | 只看该作者
yaya224 发表于 2018-7-4 16:59
知乎-所有独立回复问题采集
https://www.zhihu.com/question/25529377/answer/105056648
谢谢 ...



这里要选择翻页次数,你是不是选择了1?
举报 使用道具
13#
baogao_6 新手上路 发表于 2018-7-4 18:33:53 | 只看该作者
baogao_6 发表于 2018-7-4 17:23
这里要选择翻页次数,你是不是选择了1?

你添加的网址是什么?我可以测试一下
举报 使用道具
14#
18841139772 新手上路 发表于 2019-4-25 14:42:47 | 只看该作者
为什么我每次添加网址之后 , 数据显示已采集, 但是打包数据为0呢?  C:\Users\Administrator\Desktop\1
举报 使用道具
15#
Fuller 管理员 发表于 2019-4-25 15:13:43 | 只看该作者
18841139772 发表于 2019-4-25 14:42
为什么我每次添加网址之后 , 数据显示已采集, 但是打包数据为0呢?

你添加的网址是什么呢?我测试一下
举报 使用道具
16#
18841139772 新手上路 发表于 2019-4-25 16:06:21 | 只看该作者
Fuller 发表于 2019-4-25 15:13
你添加的网址是什么呢?我测试一下

刚在QQ群里咨询完了, 已经解决了。 谢谢

举报 使用道具
17#
a5100396 新手上路 发表于 2020-3-4 12:36:24 | 只看该作者
为什么选择全部收录只能收录95条啊
举报 使用道具
18#
ym 版主 发表于 2020-3-4 14:33:10 | 只看该作者
a5100396 发表于 2020-3-4 12:36
为什么选择全部收录只能收录95条啊

知乎问答页面是瀑布流式,滚屏到后面就会加载不出更多数据了,也就是采集到中间会失败。
解决方法是:
参考帖子《采集知乎_独立问题所有回复 ,怎样采集更多》把知乎问答网址改成下面的结构,再添加到快捷采集,这样就会变成可以翻页采集的形式,也就能采集更多数据了。
https://www.zhihu.com/question/22794831/answers/created



举报 使用道具
19#
秋天2 新手上路 发表于 2022-2-25 19:40:45 | 只看该作者
为什么翻页,最后加载出三百条都是前6个回答的复制啊
举报 使用道具
20#
Fuller 管理员 发表于 2022-2-26 16:55:39 | 只看该作者
秋天2 发表于 2022-2-25 19:40
为什么翻页,最后加载出三百条都是前6个回答的复制啊

你用的是这个快捷采集吗?知乎_独立问题所有回复采集

还是自己做的规则?

如果自己做规则,要注意这个网站是瀑布流的,网页越来越长,前面全部是重复的。

如果用的是快捷采集,把网址发出来我测试一下
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-27 02:56