21#
studyzhuan 新手上路 发表于 2022-11-28 22:37:36 | 只看该作者
为什么我采集这个问题,只能采集到6个问题答案,我选择全部或者100页都不行。
https://www.zhihu.com/question/37243703/answers/updated
举报 使用道具
22#
gz51837844 管理员 发表于 2022-11-29 09:28:27 | 只看该作者
studyzhuan 发表于 2022-11-28 22:37
为什么我采集这个问题,只能采集到6个问题答案,我选择全部或者100页都不行。
https://www.zhihu.com/quest ...

开启采集前,你有没有在数据管家登录知乎?
技术会测试下你这个网址
举报 使用道具
23#
Fuller 管理员 发表于 2022-11-29 09:32:22 | 只看该作者
studyzhuan 发表于 2022-11-28 22:37
为什么我采集这个问题,只能采集到6个问题答案,我选择全部或者100页都不行。
https://www.zhihu.com/quest ...

我正在测试这个快捷采集工具,当前看来并没有问题。

知乎最近一次改版,把网页都改成瀑布流的了,所以,你的这个网址: https://www.zhihu.com/question/37243703/answers/updated ,也是瀑布流的,不再像从前那样是有翻页的。这样就有个很大的问题,随着爬虫自动滚屏,网页会越来越长,那么就对你的电脑有比较高的要求,足够的内存存储很长的网页,网络速度要足够快,不然滚屏的时候就加载不出来新内容。


如果运行了360软件,能采集到的内容会大大减少。建议采集前关了360
举报 使用道具
24#
studyzhuan 新手上路 发表于 2022-11-29 21:28:21 | 只看该作者
gz51837844 发表于 2022-11-29 09:28
开启采集前,你有没有在数据管家登录知乎?
技术会测试下你这个网址

什么叫数据管家?我在浏览器是登陆了知乎的

举报 使用道具
25#
Fuller 管理员 发表于 2022-11-30 00:19:12 | 只看该作者
studyzhuan 发表于 2022-11-29 21:28
什么叫数据管家?我在浏览器是登陆了知乎的

集搜客爬虫软件就叫数据管家
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 20:52