本帖最后由 ym 于 2016-5-24 14:10 编辑

采集数据时,第二天发现数据采到一半中断了,怎么从断开的地方继续采集?
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2016-8-13 09:29

沙发
For数据 高级会员 发表于 2016-1-4 20:23:50 | 只看该作者
本帖最后由 ym 于 2016-5-24 14:24 编辑

解决方法:
1)如果是翻页采集,而且每一页都有独立网址,那么可以把断掉的下一页网址重新添加线索,就能从断开的地方作为起点采集。

2)但如果页码网址是不变的话,这种只能激活线索后重新开始采集了。
对于有页码输入框的翻页,有一个解决方法:在规则里通过连续动作设置 “点击、输入页码” 的动作,参看连续动作教程http://www.gooseeker.com/doc/article-141-1.html

3)不是翻页采集的话,有多条线索网址,再次采集时会自动从下条线索网址开始的。
举报 使用道具
板凳
Fuller 管理员 发表于 2016-1-4 20:45:28 | 只看该作者
没有独立网址,分页又特别多,中断的可能性特别大。只能重新启动采集
举报 使用道具
地板
ray_zhurui 中级会员 发表于 2016-8-13 00:41:23 | 只看该作者
这也算是一个痛点啊,万一一直都断怎么办?而且要找到断在哪一页好像也不方便。只能去翻看数据。
举报 使用道具
5#
Fuller 管理员 发表于 2016-8-13 09:29:02 | 只看该作者
ray_zhurui 发表于 2016-8-13 00:41
这也算是一个痛点啊,万一一直都断怎么办?而且要找到断在哪一页好像也不方便。只能去翻看数据。 ...

现在很多网页都用javascript,每个分页都没有独立的网址,不好做断点续抓。

不过这个也只是一个技术问题,我们已经安排人做解决方案,希望尽快把这个新功能做出来
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-27 00:58