本帖最后由 ym 于 2017-4-13 16:21 编辑

常见问题 > 制作规则—常见问题导航 > 翻页> 怎样控制翻页数量?

问:我现在能获取翻页的信息了 怎样可以设置说我只要前五页的信息啊,如果不设置 抓取的时候就会7页都抓取

答:有三种方法
1、用爬虫群采集,在规则调度中设置同一线索内翻页次数,就能控制翻页数,n为采集的页码数量,想要采集几页就输入几。注意:调度参数只对爬虫群采集生效,对于点击单搜/集搜打开的爬虫窗口不生效。参考爬虫群使用教程

2、构造每页网址,如果每一页是有独立网址的话,就可以构造每一页的网址,网址后面的page=xx就是页码,把页面网址拷贝到excel,拖动单元格就会把每页网址构造出来。因为是构造的网址,必须要检查网址是否有效(把它拷贝到浏览器中,看看是否正常加载)。然后把这些网址直接导入规则里,并且把规则里爬虫路线的翻页设置删掉,这样DS打数机就不会翻页,而是直接采集特定页码的数据。

3、自行编写爬虫调度程序crontab,与爬虫群效果一致,crontab中的depth参数就是控制翻页次数的,crontab比较难掌握,建议直接用爬虫群调度设置来做。参考crontab教程

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2016-12-20 16:39

沙发
wangyu15 初级会员 发表于 2016-5-19 17:31:32 | 只看该作者
请问怎么构造“page=xx"类型的网址,另外,这些网址导入规则怎么导入?是在打数机里以线索的方式批量导入吗?
举报 使用道具
板凳
shenzhenwan10 金牌会员 发表于 2016-5-19 17:34:33 | 只看该作者
你在excel里输入第一个网址, 鼠标往下来就可以生成多个网址。 不过要检查是否正确
可以在会员中心直接批量导入线索
举报 使用道具
地板
shenzhenwan10 金牌会员 发表于 2016-5-19 17:35:27 | 只看该作者
也可以复制下来,在DS打数机里导入
举报 使用道具
5#
woshisunzhongs 初级会员 发表于 2016-12-20 16:39:39 | 只看该作者
使用爬虫群定义同一线索内的翻页次数,非常实用!!!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-23 00:04