采集一个网站的信息,从首页列表页再到详情页全部采集。我至少要建立3个以上规则。
采集京东产品信息的规则,如下图。一共四个。

在本地的DS打数机中爬数据,感觉不能实现连贯爬数据啊。尤其是从列表页转到详情页,需要勾选个下级线索转到下一级的规则。只有做完了列表页的翻页,为下级规则提供了线索。才能再开始做详情页的采集。
有什么办法能将这两个规则连起来吗?连续动作还有模拟点击。都可以实现自动转入下一规则。下级线索这个有办法嘛?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2016-8-3 18:25

沙发
Fuller 管理员 发表于 2016-8-3 11:55:59 | 只看该作者
有太多方法让DS打数机跑的更快,DS打数机可以同时运行10个窗口以上,看你的电脑配置。

但是,针对同一个目标网站,最好不要太快。防止被封锁。

1)你可以用集搜按钮,每个主题启动一个集搜窗口,这是手工启动方式、
2)你还可以用爬虫群,在会员中心把这些规则放到爬虫罗盘中,只要运行爬虫群窗口,就能自动给他分配任务。

爬虫群的介绍:http://www.gooseeker.com/doc/thread-1146-1-1.html
举报 使用道具
板凳
759924607 高级会员 发表于 2016-8-3 12:22:30 | 只看该作者
Fuller 发表于 2016-8-3 11:55
有太多方法让DS打数机跑的更快,DS打数机可以同时运行10个窗口以上,看你的电脑配置。

但是,针对同一个目 ...

也不是让它跑的快些。就是想省掉中间人工点击“统计线索”,然后再“输入线索数”的过程。
举报 使用道具
地板
Fuller 管理员 发表于 2016-8-3 18:25:04 | 只看该作者
759924607 发表于 2016-8-3 12:22
也不是让它跑的快些。就是想省掉中间人工点击“统计线索”,然后再“输入线索数”的过程。 ...

那就是用爬虫群的调度功能最合适,还可以设置每天定时启动
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为

热门用户

GMT+8, 2025-2-6 13:50