通过一个url,进入到一个网页,抓取完成后我想返回到首页,再进入另一个url,进去抓取,这样不断循环,用集搜客怎么做?
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2016-10-12 12:16

沙发
Fuller 管理员 发表于 2016-10-12 12:16:26 | 只看该作者
集搜客有多个方案支持这种抓取,下面,按照从前到后的顺序选择使用

1)层级抓取方式:在第一层,把下一层的网址抓取下来作为爬虫线索,下一层可以单独运行,跟第一层不在同一个爬虫中运行,可以就能快速抓取大量数据。具体参看:http://www.gooseeker.com/doc/article-75-1.html

2)连续动作:如果下一层的url不是独立url,比如,在浏览器地址栏中观察,进入下一页的地址也不变化,或者在第一层抓取网址的时候得不到真正的网址,那么就需要连续动作抓取了。连续动作无法多个爬虫并行抓取,速度就无法提高,只能由一个爬虫一口气做完,具体参看:http://www.gooseeker.com/doc/article-141-1.html
用连续动作还要解决一个返回前一页的问题,而用层级抓取是没有这个问题的。要返回前一页很麻烦,除非有一个前一页的链接可以点击,那么就是连续动作的其中一个步骤,否则返回不了,未来会在爬虫中增加回退动作。

如果需要定制开发一些特殊功能,请留言联系


举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-4-24 21:46