当打数机采集时能暂停么?下次点开继续采集,有这个功能么?
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2016-12-16 20:22

沙发
wangyong 版主 发表于 2016-12-16 16:40:33 | 只看该作者
本帖最后由 wangyong 于 2016-12-16 16:45 编辑

爬虫群调度可以用暂停功能。
以一轮线索为单位,执行完当前线索有就会停止执行。
如果是在打数机中直接使用单搜或集搜,抓别的主题覆盖掉原先工作的打数机窗口或者直接关掉打数机 。
在单和集搜中抓取的单位是线索,如果爬取的是多条线索本次停止后会继续接着爬取后续线索。
如果只是抓取一条线索,翻页中途停止,重新抓取时会从第一页重新抓。
举报 使用道具
板凳
Givent 中级会员 发表于 2016-12-16 16:43:11 | 只看该作者
wangyong 发表于 2016-12-16 16:40
用爬虫群调度可以有暂停功能。
以一轮线索为单位,执行完当前线索有就会停止执行。
如果是在打数机中直接使 ...

我这是瀑布流网页,是算一条线索吧?
举报 使用道具
地板
wangyong 版主 发表于 2016-12-16 16:44:33 | 只看该作者
Givent 发表于 2016-12-16 16:43
我这是瀑布流网页,是算一条线索吧?

是的
举报 使用道具
5#
Givent 中级会员 发表于 2016-12-16 16:48:47 | 只看该作者

那这种采集无穷无尽啊,每次都重新采集,要了命了。没其他办法么
举报 使用道具
6#
Fuller 管理员 发表于 2016-12-16 20:22:53 | 只看该作者
Givent 发表于 2016-12-16 16:48
那这种采集无穷无尽啊,每次都重新采集,要了命了。没其他办法么

瀑布流可以中断,但是不能暂停

暂停的意思是:比如瀑布流往下翻滚到20屏了,想停下来,以后再从21屏开始采集。这种需求无法在瀑布流上实现,因为下次一定要从头开始,瀑布流没有跳的某一屏的功能。

但是你可以中断,我不知道你是要抓哪个网站,假设抓天天有货这个网站的话,如果按照我在另一个帖子说的方法,只用点击和回退,那么可以在点击动作中规定点击位置,也就是在自定义xpath中,规定只点击前20个,可以用条件position() <= 20
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-11 10:44