如果当天抓取了1000条数据,第二天想从1001条数据开始抓,是否可以实现?
举报 使用道具
| 回复

共 9 个关于本帖的回复 最后回复于 2016-8-13 17:40

沙发
gooseeker_info 金牌会员 发表于 2015-8-27 10:46:11 | 只看该作者
是翻页抓取吗?连续翻页不能从中间重新开始。如果是抓取单页,中断的时候可能会影响当时在抓的那个网页,下次启动会从剩下没抓的那些开始,所以,不用担心中断。如果中断时受影响的那个要重新抓取,可以在DS打数机中激活失败线索,不要激活所有线索
举报 使用道具
板凳
For数据 高级会员 发表于 2015-8-27 10:47:03 | 只看该作者
如果是所抓数据的网址不根据翻页而发生变化,那么所说的功能暂时不能实现,如果每个翻页后的页面都是一个新的网址,那么可以将第2001的网址作为起始页面重新构建规则进行抓取。
举报 使用道具
地板
ray_zhurui 中级会员 发表于 2016-8-13 00:49:51 | 只看该作者
For数据 发表于 2015-8-27 10:47
如果是所抓数据的网址不根据翻页而发生变化,那么所说的功能暂时不能实现,如果每个翻页后的页面都是一个新 ...

即使是在网页地址不变的动态页面下,让爬虫在捉取时判断一下页面中某个值不久能让爬虫知道上一次断点在哪里了么?功能上要实现断点续采应该不难吧?
举报 使用道具
5#
Fuller 管理员 发表于 2016-8-13 09:31:03 | 只看该作者
ray_zhurui 发表于 2016-8-13 00:49
即使是在网页地址不变的动态页面下,让爬虫在捉取时判断一下页面中某个值不久能让爬虫知道上一次断点在哪 ...

技术问题都可以突破的,我们已经安排研发了
举报 使用道具
6#
ray_zhurui 中级会员 发表于 2016-8-13 13:14:24 | 只看该作者
Fuller 发表于 2016-8-13 09:31
技术问题都可以突破的,我们已经安排研发了

其实给个捉取页数上限的设置就能解决90%的问题。
举报 使用道具
7#
Fuller 管理员 发表于 2016-8-13 14:45:50 | 只看该作者
ray_zhurui 发表于 2016-8-13 13:14
其实给个捉取页数上限的设置就能解决90%的问题。

设置上限的功能有,在会员中心,为这个规则设置调度参数,高级设置中有“同一线索内翻页次数”
举报 使用道具
8#
ray_zhurui 中级会员 发表于 2016-8-13 14:54:30 | 只看该作者
Fuller 发表于 2016-8-13 14:45
设置上限的功能有,在会员中心,为这个规则设置调度参数,高级设置中有“同一线索内翻页次数” ...

MS上能设置么?
举报 使用道具
9#
Fuller 管理员 发表于 2016-8-13 15:29:12 | 只看该作者

MS上只管规则,不管爬虫怎么跑。在DS打数机上也没有菜单设置这个限制,只能在会员中心设置
举报 使用道具
10#
ray_zhurui 中级会员 发表于 2016-8-13 17:40:33 | 只看该作者
Fuller 发表于 2016-8-13 15:29
MS上只管规则,不管爬虫怎么跑。在DS打数机上也没有菜单设置这个限制,只能在会员中心设置 ...

我觉得在MS的爬虫路径里应该把这个设置加上吧?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 06:02