我想请问下,我是想层级抓取网页上的文档信息,先根据当前页面上的网址再抓取第二层页面上的文档信息,但是这样第一层就只能抓取当前页面了,我想把下一页的网址也抓取下来,教程上有说可以按照翻页抓取来用,但是这样就不能同时设定下级线索了,请问这样有什么办法解决吗?
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2015-12-11 10:58

沙发
ym 版主 发表于 2015-12-11 09:40:58 | 只看该作者
做完翻页线索,可以同时设定下级线索的,两者并没有冲突
举报 使用道具
板凳
Fuller 管理员 发表于 2015-12-11 10:58:19 | 只看该作者
假设当前规则名是 A,下级是 B,
1)为A做好翻页规则,也指定了下级规则名,你就开始抓取A,
2)抓一段时间后,你在DS打数机中输入B进行查询,就能看到这个主题已经被预留好了,你再统计他的线索数,发现B的线索已经有很多了。
3)此时,你可以为B做抓取规则
4)B的规则做好以后,在DS打数机中就能抓B的线索了。
如果这个过程要做成自动化周期性增量抓取,请进入会员中心,在爬虫管理板块做爬虫调度设置:http://www.gooseeker.com/secure/ ... Num=1&home=true
通过DS的菜单 爬虫群->调度 ,也能进入,

安排好运行时间,把DS打数机配置成爬虫群模式,就可以由自动程序接管了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-19 11:50