抓取淘宝商品评论的规则,第二次就抓取不了了

我看了教程。
抓取淘宝某个商品的评论,建立了2个抓取规则:
(1)justdoit :按照教程,记号线索 是“评价详情” 主题改justdoit_pl
(2)justdoit_pl

crontab配置滚屏抓取。 第一次抓的时候,有用,数据全部抓取完毕。

完后我加载规则:justdoit_pl ,出现定位失败(每次加载因为没有刷选DOM,要重新刷新吗,然后重新定位吗?)

定位好之后,上传,然后继续抓取数据。结果是 失败。

可以帮我看一下,是什么原因吗?
(最后总要的是,第一次抓取数据的时候,评论区域翻页,竟然是规则:justdoit里面翻页的 ,抓取的数据在justdoit_pl 文件夹里。这是什么情况呢?)

谢谢 O(∩_∩)O~

淘宝商品评论抓取方法

加载第二个主题的时候,首先要注意,如果刚刚加载完第一个主题,不要立即加载第二个主题,因为他们的样本页面是一样的,MetaStudio不允许连续加载相同的样本页面。所以,需要先将MetaStudio重启一下。其次,加载第二个主题后,等待弹出一个提示框,要求执行后续分析,不要立即执行,而是点击网页上的“评价详情”,等待商品评价都显示出来后才执行后续分析。通常后续分析会自动刷新一次DOM,如果分析失败,可以尝试再手工刷新一次DOM,如果还分析失败,那么说明信息结构定义有问题

两个信息结构我都分析过了,没有错误,您遇到的失败有什么提示?DataScraper窗口下部显示什么日志消息?

谢谢,基本解决,还有一个地方不太理解

是的,我直接加载第二个主题,点击了“评价详情” 再执行后续分析 就正常显示呢。(以前都是直接 后续分析,以为会自动跳转到评价详情,这一步应该还是在第一个主题上自动执行的)

刚才抓取数据都能正常抓取,但是有一个问题,我不太理解。

第一个主题,开始抓取商品普通信息,然后第二个主题变成:(总线索:0 SCTEN 剩余线索:0 RSCH)
然后第一个主题,自动点击到“评价详情” 然后开始翻页抓取数据。
第一个主题抓取数据完毕之后显示:((总线索:1 SCTEN 剩余线索:0 RSCH))

我想问的,为什么是第一个主题抓取评价数据呢,不是第二个主题?

模拟点击抓取评价详情

这种模拟点击抓取只能从第一个主题开始抓,不能单独执行第二个主题的抓取。

在定义第一个信息结构的时候,在Clue Editor工作台上为第二个主题的线索设置了inthread类型,就是那个三角符号,这样,从第一级跳到第二级是在同一个线程内自动进行的,都当成是第一个主题的抓取活动,这跟翻页抓取设置inthread类型是一样的。所以,线索数统计方面也是以第一个主题为统计对象

谢谢

说的好详细,非常感谢。