如图所示:

网页抓取过程中,网页挂掉,打数机显示匹配失败,如何能刷新此页面继续抓取?? 谢谢

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2018-2-1 13:28

沙发
Fuller 管理员 发表于 2018-2-1 12:11:44 | 只看该作者
根据这个提示看,是网站的数据库跟不上,出现错误了,如果你再频繁刷新,那就更加剧了。我建议先放慢采集速度,有多种方式,比如,用爬虫群模式可以设置线索间等待时间,参看:http://www.gooseeker.com/doc/article-200-1.html

如果用单搜,可以参看这个帖子:http://www.gooseeker.com/doc/thread-4563-1-1.html
举报 使用道具
板凳
danielx 新手上路 发表于 2018-2-1 12:14:35 | 只看该作者
Fuller 发表于 2018-2-1 12:11
根据这个提示看,是网站的数据库跟不上,出现错误了,如果你再频繁刷新,那就更加剧了。我建议先放慢采集速 ...

你好,我这是单一线索,网站现在能打开了,我想知道如何接着抓取,因为已经抓取2000多页了,不想重头抓取,谢谢。
举报 使用道具
地板
Fuller 管理员 发表于 2018-2-1 12:32:48 | 只看该作者
danielx 发表于 2018-2-1 12:14
你好,我这是单一线索,网站现在能打开了,我想知道如何接着抓取,因为已经抓取2000多页了,不想重头抓取 ...

观察一下网页的url,参数中有没有页码信息,比如,&page=3,如果有,这就好办了,用中断的那个页码构造一个网址,添加到规则中,添加方法:http://www.gooseeker.com/doc/thread-667-1-1.html

如果没有页码信息,看看能否用直接跳转

这个网页有没有输入页码直接跳转的?如果有,可以用连续动作再做一个规则,先用动作跳过去,再用原来规则翻页,具体参看高级教程中的连续动作,需要一个输入动作和一个点击动作。http://www.gooseeker.com/tuto/tutorial.html

如果这个也没有,只有从头开始了
举报 使用道具
5#
danielx 新手上路 发表于 2018-2-1 13:28:42 | 只看该作者
Fuller 发表于 2018-2-1 12:32
观察一下网页的url,参数中有没有页码信息,比如,&page=3,如果有,这就好办了,用中断的那个页码构造一 ...

works 谢谢
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-11-24 22:07