本帖最后由 ym 于 2016-2-2 10:14 编辑

常见问题 > 制作规则—常见问题导航 > 翻页采集 > 楼层很高的论坛帖子翻页抓取技巧

想抓取一个高楼帖子 ,大概10000楼。
要求抓取楼主及帖子中某2,3个ID的全部发言,用集搜客能做到吗?
能否说下大概思路?
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2016-1-23 21:13

沙发
Fuller 管理员 发表于 2016-1-23 20:40:10 | 只看该作者
论坛中盖楼很高的话,一般会分成很多页进行显示,假设一页20天,那么10000就有500个分页。你抓的网站是否这样?

这个社区中有很多翻页抓取的例子。但是在使用翻页抓取之前最好先观察一下:在浏览器中翻页看看,注意观察浏览器的地址输入栏,如果网址不断变化,比如,有个参数page=5,表示翻到5页,这种叫做有独立网址的。

有独立网址的话,你肯定能把10000个帖子一个不漏地抓下来。如果网址不变,那么必须让GooSeeker软件一口气翻页到底,要翻500页,中间不断掉,还是比较难保证的,万一网络出现超时,就断了,又得从头开始翻。

但是,如果有独立网址,如果中间断了,那么把断掉那个位置的网址添加进去生成一条线索,下次运行就从断掉的地方接上。

翻页抓取的案例参看:http://www.gooseeker.com/doc/thread-698-1-1.html
举报 使用道具
板凳
gdzxLyzh 初级会员 发表于 2016-1-23 20:55:13 | 只看该作者
http://www.jiaoyizhe.com/thread-1685637-1-1.html
http://www.jiaoyizhe.com/thread-1685637-2-1.html

这种论坛, 上面网址是第一页第二页。  这个应该是有独立网址吧?
举报 使用道具
地板
xandy 论坛元老 发表于 2016-1-23 21:13:23 | 只看该作者


是独立的网址。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
5#
gdzxLyzh 初级会员 发表于 2016-1-23 21:13:43 | 只看该作者
OK!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-19 17:11