实际翻页抓取时爬虫只在第一页和第二页来回爬取是什么原因？

加为好友

我做了个两级规则，但是实际抓取时它的第二级任务的翻页采集只在第一页和第二页来回抓取，并不能抓取到后面几百页的数据，请问管理员知道怎么解决吗？
任务名：北京全聚德评论抓取第*级

Fuller · 发表于 2020-6-12 15:22:23

定位用的xpath不要用绝对定位，在电商网站上基本上是不能用的，要用相对于定位标志的xpath，比如，如下图，选择一个节点，点击如图按钮，自动生成xpath

Fuller · 发表于 2020-6-12 15:25:03

第二级规则里面，要把连续动作删除

1842554864 · 发表于 2020-6-12 17:38:57

Fuller 发表于 2020-6-12 15:25
第二级规则里面，要把连续动作删除

嗯嗯，好的，我已经按您所说的做出了修改，然后实际抓取时，爬虫会因为网商网站中途弹出来的验证码而回到评论第一页，导致实际抓取只能抓到400多条就失败了，有什么方法解决中途的验证码吗？或者能保证我在中间填完验证码后继续之前没抓完的页数抓取？

Fuller · 发表于 2020-6-12 17:51:00

1842554864 发表于 2020-6-12 17:38
嗯嗯，好的，我已经按您所说的做出了修改，然后实际抓取时，爬虫会因为网商网站中途弹出来的验证码而回到 ...

有验证码就比较麻烦了，而且美团的网站反爬很厉害，验证码会频繁出现。可以连打码平台，实现自动打码，但是那样就要额外花钱，而且打码平台有时候会识别错误。目标网站也可能因为打码太多就不给显示了

共 4 个关于本帖的回复最后回复于 2020-6-12 17:51

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页