本帖最后由 wangyong 于 2021-9-27 11:34 编辑



问题描述:在当当图书评论页面抓取每一个评论者的数据,采集到了最后一页,所有数据均已成功采集,最后一页采集成功后,爬虫却显示采集失败。以下为附图

图1:图1为正常采集页面,已经采集到了40多页


图2: 图2为采集到了最后一页,所有采集均已完成,此时应该退出显示采集成功。但是并没有。发生了如下的情况


图3: 图3为最后一页,打数机又继续翻页,系统默认好评,此时已经没有任何数据,应该返回采集成功。 却返回了采集失败的消息。


图4:图4为查看的后续分析的失败原因。


最终得到的数据是所有评论的数据,但是却返回 采集失败。
由于要采集的图书有很多,所以如果返回采集失败的话,无从得知是 由于此原因失败,还是 由于网页结构不适用而失败
因此需要这种情况下返回成功,还望技术人员帮我解答这个问题。




本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 13 个关于本帖的回复 最后回复于 2021-9-27 11:30

来自 14#
wangyong 版主 发表于 2021-9-27 11:30:57 | 只看该作者
本帖最后由 wangyong 于 2021-9-27 11:33 编辑

使用集搜客数据管家中的当当商品评论快捷采集,可以输入商品网址直接采集商品评论

1,选中当当商品评论快捷采集,输入要采集的网址,如果输入的是多条网址可以选择旁边的“输入多条网址”按钮,输入完成后点击“获取数据”
这样数据管家就开始采集数据了。

2,在快捷采集后台中看到采集任务的状态变为“已采集”后,就可以点击“打包”按钮下载Excel数据了

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
沙发
18042659925 中级会员 发表于 2019-8-18 17:48:04 | 只看该作者
主题:dangdang_uni0818
规则:规则_1


不知为何,空行没有显示。
举报 使用道具
板凳
Fuller 管理员 发表于 2019-8-18 22:34:59 | 只看该作者
18042659925 发表于 2019-8-18 17:48
主题:dangdang_uni0818
规则:规则_1

加载规则的时候,要往下滚动网页内容,看到评论都显示出来了再进行“后续分析”,如果评论没有显示出来,分析肯定会失败。

我加载规则没有遇到问题
举报 使用道具
地板
Fuller 管理员 发表于 2019-8-18 22:41:14 | 只看该作者
如果抓取失败,点击红框位置往上拖,看看日志是什么


我估计是翻页到底了,但是到了最后一页也停不下来,你可能设置了重复内容中断

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
5#
Fuller 管理员 发表于 2019-8-18 22:48:05 | 只看该作者
看来不是到最后一页就死循环了,而是到最后一页后,再点击下一页就变成这样了,规则就会失效,从而失败退出。这种情况如果要确保每个线索都成功完成,那么需要为最后显示的这个无效页面也做一个规则,这个规则的任务名跟当前这个任务名一样,但是规则编号不一样,这样,同一个任务下有两个规则,哪个适合用哪个,最后一页用上第二个规则,就结束了


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
6#
18042659925 中级会员 发表于 2019-8-19 19:49:39 | 只看该作者
Fuller 发表于 2019-8-18 22:41
如果抓取失败,点击红框位置往上拖,看看日志是什么

我确实设置了 重复内容 中断,这个需要这么设置吗?
那终端的标志我如何设置呢?
举报 使用道具
7#
18042659925 中级会员 发表于 2019-8-19 19:50:03 | 只看该作者
18042659925 发表于 2019-8-19 19:49
我确实设置了 重复内容 中断,这个需要这么设置吗?
那终端的标志我如何设置呢?
...

中断
举报 使用道具
8#
18042659925 中级会员 发表于 2019-8-19 19:51:18 | 只看该作者
Fuller 发表于 2019-8-18 22:48
看来不是到最后一页就死循环了,而是到最后一页后,再点击下一页就变成这样了,规则就会失效,从而失败退出 ...

那请问,最后一页 设置的相同主题下的规则_2
要如何设置才能让他正常成功退出呢?
举报 使用道具
9#
Fuller 管理员 发表于 2019-8-19 22:27:08 | 只看该作者

重复内容中断只要勾上就可以了。

我建议同时设置重复内容中断和为最后一页定义一个规则。

在集搜客浏览器中,在普通浏览模式下(不要在定义规则模式下),或者在定义规则模式下不要勾选内容定位,就可以一直翻页,翻到最后一页,就能看到一个没有评论内容的网页,针对这个网页定义一个规则,没有什么特别,就是定义一个普通规则,但是要抓取这个网页上的一个区别于有内容的网页上的某项内容。

现在有了两个规则,爬虫每采集一个网页都要尝试选择一个适合的规则,正常翻页时,选择第一个规则,到最后一页时,选择第二个规则。你定义的第二个规则肯定没有定义翻页,那么用上这个规则自然就停下了
举报 使用道具
10#
18042659925 中级会员 发表于 2019-8-20 11:46:24 | 只看该作者
Fuller 发表于 2019-8-19 22:27
重复内容中断只要勾上就可以了。

我建议同时设置重复内容中断和为最后一页定义一个规则。

设置了规则_2,其余用户默认好评的界面是可以采集成功,可是 有的页面,刚打开就显示采集成功,根本不采集
而有的页面就会按照规则_1规则_2的顺序进行采集。

对于那个不采集就直接显示采集成功的网址该如何是好??
我也不清楚为什么,规则_2明明确定的是最后一页,不知道为什么有的网页一开始就不采集了。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为

热门用户

GMT+8, 2025-2-6 06:50