采集一个网站的信息,从首页列表页再到详情页全部采集。我至少要建立3个以上规则。
采集京东产品信息的规则,如下图。一共四个。

在本地的DS打数机中爬数据,感觉不能实现连贯爬数据啊。尤其是从列表页转到详情页,需要勾选个下级线索转到下一级的规则。只有做完了列表页的翻页,为下级规则提供了线索。才能再开始做详情页的采集。
有什么办法能将这两个规则连起来吗?连续动作还有模拟点击。都可以实现自动转入下一规则。下级线索这个有办法嘛?
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2016-8-3 18:25

沙发
Fuller 管理员 发表于 2016-8-3 11:55:59 | 只看该作者
有太多方法让DS打数机跑的更快,DS打数机可以同时运行10个窗口以上,看你的电脑配置。

但是,针对同一个目标网站,最好不要太快。防止被封锁。

1)你可以用集搜按钮,每个主题启动一个集搜窗口,这是手工启动方式、
2)你还可以用爬虫群,在会员中心把这些规则放到爬虫罗盘中,只要运行爬虫群窗口,就能自动给他分配任务。

爬虫群的介绍:http://www.gooseeker.com/doc/thread-1146-1-1.html
举报 使用道具
板凳
759924607 高级会员 发表于 2016-8-3 12:22:30 | 只看该作者
Fuller 发表于 2016-8-3 11:55
有太多方法让DS打数机跑的更快,DS打数机可以同时运行10个窗口以上,看你的电脑配置。

但是,针对同一个目 ...

也不是让它跑的快些。就是想省掉中间人工点击“统计线索”,然后再“输入线索数”的过程。
举报 使用道具
地板
Fuller 管理员 发表于 2016-8-3 18:25:04 | 只看该作者
759924607 发表于 2016-8-3 12:22
也不是让它跑的快些。就是想省掉中间人工点击“统计线索”,然后再“输入线索数”的过程。 ...

那就是用爬虫群的调度功能最合适,还可以设置每天定时启动
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-27 20:42