知乎有个问题有两百多个回答,但是只能爬出几十条,怎么爬取完整呢。

问题页面下滑,不断有新的回答出现。
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2024-3-21 10:09

沙发
gz51837844 管理员 发表于 2024-3-19 16:41:52 | 只看该作者
你是使用的知乎快捷采集吗?
可以把添加的网址发出来,我们测试下
举报 使用道具
板凳
labalbal 新手上路 发表于 2024-3-19 16:58:29 | 只看该作者
没有,是自定义的
举报 使用道具
地板
labalbal 新手上路 发表于 2024-3-19 17:00:41 | 只看该作者
gz51837844 发表于 2024-3-19 16:41
你是使用的知乎快捷采集吗?
可以把添加的网址发出来,我们测试下

没有,是自定义的


举报 使用道具
5#
Fuller 管理员 发表于 2024-3-20 00:01:03 | 只看该作者
为知乎做的快捷采集工具很全。尽量使用快捷采集。如果要自定义采集任务的话,要看采集瀑布流网页的教程,定义连续滚屏动作:https://www.gooseeker.com/doc/article-548-1.html

瀑布流网页几乎不可能采集全。因为越往下滚屏,网页越大,占用的内存越大,最后就滚不动了。另外,知乎网站自身的速度影响也很大,有时候滚着滚着就显示不出新内容了。

总之,网速要很快才行,自己的电脑也要配置高一些。多采集几遍,使用采集到的数量最多的那一次的结果
举报 使用道具
6#
labalbal 新手上路 发表于 2024-3-20 20:53:48 | 只看该作者
Fuller 发表于 2024-3-20 00:01
为知乎做的快捷采集工具很全。尽量使用快捷采集。如果要自定义采集任务的话,要看采集瀑布流网页的教程,定 ...

好滴好滴,我想再问一下,用快捷采集数据,回答内容的最后总会有“X年X月,赞同、评论”啥的,怎么能够去除这些文字呢
举报 使用道具
7#
Fuller 管理员 发表于 2024-3-21 10:05:11 | 只看该作者
labalbal 发表于 2024-3-20 20:53
好滴好滴,我想再问一下,用快捷采集数据,回答内容的最后总会有“X年X月,赞同、评论”啥的,怎么能够去 ...

如果结构都是一样的,在excel中可以去除。

我昨天自定义测试了一下。如果网络比较快,还是能采集的很全的。如果每个回答很长,采集四五百条回答要花两个多小时。

昨天修改了采集知乎问题回答的快捷采集工具:https://www.gooseeker.com/res/rule_167.html
应该会采集到的更多一些
举报 使用道具
8#
Fuller 管理员 发表于 2024-3-21 10:09:52 | 只看该作者
labalbal 发表于 2024-3-20 20:53
好滴好滴,我想再问一下,用快捷采集数据,回答内容的最后总会有“X年X月,赞同、评论”啥的,怎么能够去 ...

昨天升级了知乎快捷采集工具以后,最后就没有X年X月,。。。这些内容了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-21 20:58