我想请问下,我是想层级抓取网页上的文档信息,先根据当前页面上的网址再抓取第二层页面上的文档信息,但是这样第一层就只能抓取当前页面了,我想把下一页的网址也抓取下来,教程上有说可以按照翻页抓取来用,但是这样就不能同时设定下级线索了,请问这样有什么办法解决吗?
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2015-12-11 10:58

沙发
ym 版主 发表于 2015-12-11 09:40:58 | 只看该作者
做完翻页线索,可以同时设定下级线索的,两者并没有冲突
举报 使用道具
板凳
Fuller 管理员 发表于 2015-12-11 10:58:19 | 只看该作者
假设当前规则名是 A,下级是 B,
1)为A做好翻页规则,也指定了下级规则名,你就开始抓取A,
2)抓一段时间后,你在DS打数机中输入B进行查询,就能看到这个主题已经被预留好了,你再统计他的线索数,发现B的线索已经有很多了。
3)此时,你可以为B做抓取规则
4)B的规则做好以后,在DS打数机中就能抓B的线索了。
如果这个过程要做成自动化周期性增量抓取,请进入会员中心,在爬虫管理板块做爬虫调度设置:http://www.gooseeker.com/secure/ ... Num=1&home=true
通过DS的菜单 爬虫群->调度 ,也能进入,

安排好运行时间,把DS打数机配置成爬虫群模式,就可以由自动程序接管了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 12:06