我做了个两级规则,但是实际抓取时它的第二级任务的翻页采集只在第一页和第二页来回抓取,并不能抓取到后面几百页的数据,请问管理员知道怎么解决吗?
任务名:北京全聚德评论抓取第*级
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2020-6-12 17:51

沙发
Fuller 管理员 发表于 2020-6-12 15:22:23 | 只看该作者
定位用的xpath不要用绝对定位,在电商网站上基本上是不能用的,要用相对于定位标志的xpath,比如,如下图,选择一个节点,点击如图按钮,自动生成xpath


举报 使用道具
板凳
Fuller 管理员 发表于 2020-6-12 15:25:03 | 只看该作者
第二级规则里面,要把连续动作删除


举报 使用道具
地板
1842554864 初级会员 发表于 2020-6-12 17:38:57 | 只看该作者
Fuller 发表于 2020-6-12 15:25
第二级规则里面,要把连续动作删除

嗯嗯,好的,我已经按您所说的做出了修改,然后实际抓取时,爬虫会因为网商网站中途弹出来的验证码而回到评论第一页,导致实际抓取只能抓到400多条就失败了,有什么方法解决中途的验证码吗?或者能保证我在中间填完验证码后继续之前没抓完的页数抓取?
举报 使用道具
5#
Fuller 管理员 发表于 2020-6-12 17:51:00 | 只看该作者
1842554864 发表于 2020-6-12 17:38
嗯嗯,好的,我已经按您所说的做出了修改,然后实际抓取时,爬虫会因为网商网站中途弹出来的验证码而回到 ...

有验证码就比较麻烦了,而且美团的网站反爬很厉害,验证码会频繁出现。可以连打码平台,实现自动打码,但是那样就要额外花钱,而且打码平台有时候会识别错误。目标网站也可能因为打码太多就不给显示了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 18:10