快捷导航
本帖最后由 18042659925 于 2019-8-18 17:48 编辑

主题:dangdang_uni0818

规则:规则_1

问题描述:在当当图书评论页面抓取每一个评论者的数据,采集到了最后一页,所有数据均已成功采集,最后一页采集成功后,爬虫却显示采集失败。以下为附图
(FOEL8[3R%WNJWAP{JQTK)Y.png
图1:图1为正常采集页面,已经采集到了40多页

SOT$I}P5HH37YALQZTBW0.png
图2: 图2为采集到了最后一页,所有采集均已完成,此时应该退出显示采集成功。但是并没有。发生了如下的情况

@}5K{}4]CC6`R]1IM(I}OUB.png
图3: 图3为最后一页,打数机又继续翻页,系统默认好评,此时已经没有任何数据,应该返回采集成功。 却返回了采集失败的消息。

}CGC0HR9AE{1QXI5U0H_V.png
图4:图4为查看的后续分析的失败原因。


最终得到的数据是所有评论的数据,但是却返回 采集失败。
由于要采集的图书有很多,所以如果返回采集失败的话,无从得知是 由于此原因失败,还是 由于网页结构不适用而失败
因此需要这种情况下返回成功,还望技术人员帮我解答这个问题。




举报 使用道具
| 回复

共 12 个关于本帖的回复 最后回复于 2019-8-21 14:22

18042659925 初级会员 发表于 2019-8-18 17:48:04 | 显示全部楼层
主题:dangdang_uni0818
规则:规则_1


不知为何,空行没有显示。
举报 使用道具
Fuller 管理员 发表于 2019-8-18 22:34:59 | 显示全部楼层
18042659925 发表于 2019-8-18 17:48
主题:dangdang_uni0818
规则:规则_1

加载规则的时候,要往下滚动网页内容,看到评论都显示出来了再进行“后续分析”,如果评论没有显示出来,分析肯定会失败。

我加载规则没有遇到问题
举报 使用道具
Fuller 管理员 发表于 2019-8-18 22:41:14 | 显示全部楼层
如果抓取失败,点击红框位置往上拖,看看日志是什么
失败20190818223931.png

我估计是翻页到底了,但是到了最后一页也停不下来,你可能设置了重复内容中断
举报 使用道具
Fuller 管理员 发表于 2019-8-18 22:48:05 | 显示全部楼层
看来不是到最后一页就死循环了,而是到最后一页后,再点击下一页就变成这样了,规则就会失效,从而失败退出。这种情况如果要确保每个线索都成功完成,那么需要为最后显示的这个无效页面也做一个规则,这个规则的任务名跟当前这个任务名一样,但是规则编号不一样,这样,同一个任务下有两个规则,哪个适合用哪个,最后一页用上第二个规则,就结束了

470190818224504.png
举报 使用道具
18042659925 初级会员 发表于 2019-8-19 19:49:39 | 显示全部楼层
Fuller 发表于 2019-8-18 22:41
如果抓取失败,点击红框位置往上拖,看看日志是什么

我确实设置了 重复内容 中断,这个需要这么设置吗?
那终端的标志我如何设置呢?
举报 使用道具
18042659925 初级会员 发表于 2019-8-19 19:50:03 | 显示全部楼层
18042659925 发表于 2019-8-19 19:49
我确实设置了 重复内容 中断,这个需要这么设置吗?
那终端的标志我如何设置呢?
...

中断
举报 使用道具
18042659925 初级会员 发表于 2019-8-19 19:51:18 | 显示全部楼层
Fuller 发表于 2019-8-18 22:48
看来不是到最后一页就死循环了,而是到最后一页后,再点击下一页就变成这样了,规则就会失效,从而失败退出 ...

那请问,最后一页 设置的相同主题下的规则_2
要如何设置才能让他正常成功退出呢?
举报 使用道具
Fuller 管理员 发表于 2019-8-19 22:27:08 | 显示全部楼层

重复内容中断只要勾上就可以了。

我建议同时设置重复内容中断和为最后一页定义一个规则。

在集搜客浏览器中,在普通浏览模式下(不要在定义规则模式下),或者在定义规则模式下不要勾选内容定位,就可以一直翻页,翻到最后一页,就能看到一个没有评论内容的网页,针对这个网页定义一个规则,没有什么特别,就是定义一个普通规则,但是要抓取这个网页上的一个区别于有内容的网页上的某项内容。

现在有了两个规则,爬虫每采集一个网页都要尝试选择一个适合的规则,正常翻页时,选择第一个规则,到最后一页时,选择第二个规则。你定义的第二个规则肯定没有定义翻页,那么用上这个规则自然就停下了
举报 使用道具
18042659925 初级会员 发表于 2019-8-20 11:46:24 | 显示全部楼层
Fuller 发表于 2019-8-19 22:27
重复内容中断只要勾上就可以了。

我建议同时设置重复内容中断和为最后一页定义一个规则。

设置了规则_2,其余用户默认好评的界面是可以采集成功,可是 有的页面,刚打开就显示采集成功,根本不采集
而有的页面就会按照规则_1规则_2的顺序进行采集。

对于那个不采集就直接显示采集成功的网址该如何是好??
我也不清楚为什么,规则_2明明确定的是最后一页,不知道为什么有的网页一开始就不采集了。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 采集知乎上关于华为鸿蒙的问题和回答
  • 分词和分类检索平台使用手册
  • 用爬虫采集机场出租车进场出场数据的公告
  • 摘取泉港区政府工作报告中的数字遇到的问题
  • 调度设置参数说明

热门用户

GMT+8, 2019-9-21 08:32