如图所示:

网页挂掉

网页挂掉

网页抓取过程中,网页挂掉,打数机显示匹配失败,如何能刷新此页面继续抓取?? 谢谢
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2018-2-1 13:28

Fuller 管理员 发表于 2018-2-1 12:11:44 | 显示全部楼层
根据这个提示看,是网站的数据库跟不上,出现错误了,如果你再频繁刷新,那就更加剧了。我建议先放慢采集速度,有多种方式,比如,用爬虫群模式可以设置线索间等待时间,参看:http://www.gooseeker.com/doc/article-200-1.html

如果用单搜,可以参看这个帖子:http://www.gooseeker.com/doc/thread-4563-1-1.html
举报 使用道具
danielx 新手上路 发表于 2018-2-1 12:14:35 | 显示全部楼层
Fuller 发表于 2018-2-1 12:11
根据这个提示看,是网站的数据库跟不上,出现错误了,如果你再频繁刷新,那就更加剧了。我建议先放慢采集速 ...

你好,我这是单一线索,网站现在能打开了,我想知道如何接着抓取,因为已经抓取2000多页了,不想重头抓取,谢谢。
举报 使用道具
Fuller 管理员 发表于 2018-2-1 12:32:48 | 显示全部楼层
danielx 发表于 2018-2-1 12:14
你好,我这是单一线索,网站现在能打开了,我想知道如何接着抓取,因为已经抓取2000多页了,不想重头抓取 ...

观察一下网页的url,参数中有没有页码信息,比如,&page=3,如果有,这就好办了,用中断的那个页码构造一个网址,添加到规则中,添加方法:http://www.gooseeker.com/doc/thread-667-1-1.html

如果没有页码信息,看看能否用直接跳转

这个网页有没有输入页码直接跳转的?如果有,可以用连续动作再做一个规则,先用动作跳过去,再用原来规则翻页,具体参看高级教程中的连续动作,需要一个输入动作和一个点击动作。http://www.gooseeker.com/tuto/tutorial.html

如果这个也没有,只有从头开始了
举报 使用道具
danielx 新手上路 发表于 2018-2-1 13:28:42 | 显示全部楼层
Fuller 发表于 2018-2-1 12:32
观察一下网页的url,参数中有没有页码信息,比如,&page=3,如果有,这就好办了,用中断的那个页码构造一 ...

works 谢谢
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 01:48