本帖最后由 ym 于 2017-4-13 16:21 编辑
常见问题 > 制作规则—常见问题导航 > 翻页> 怎样控制翻页数量?
问:我现在能获取翻页的信息了 怎样可以设置说我只要前五页的信息啊,如果不设置 抓取的时候就会7页都抓取
答:有三种方法
1、用爬虫群采集,在规则调度中设置同一线索内翻页次数,就能控制翻页数,n为采集的页码数量,想要采集几页就输入几。注意:调度参数只对爬虫群采集生效,对于点击单搜/集搜打开的爬虫窗口不生效。参考爬虫群使用教程
2、构造每页网址,如果每一页是有独立网址的话,就可以构造每一页的网址,网址后面的page=xx就是页码,把页面网址拷贝到excel,拖动单元格就会把每页网址构造出来。因为是构造的网址,必须要检查网址是否有效(把它拷贝到浏览器中,看看是否正常加载)。然后把这些网址直接导入规则里,并且把规则里爬虫路线的翻页设置删掉,这样DS打数机就不会翻页,而是直接采集特定页码的数据。
3、自行编写爬虫调度程序crontab,与爬虫群效果一致,crontab中的depth参数就是控制翻页次数的,crontab比较难掌握,建议直接用爬虫群调度设置来做。参考crontab教程 |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|
|
|
|
共 4 个关于本帖的回复 最后回复于 2016-12-20 16:39