本帖最后由 759924607 于 2016-6-20 14:33 编辑
我抓取的是淘宝页面,翻页分层采集。第二级详情页有的是淘宝页面,有的是天猫页面。所以第二级主题下做了两个规则。遇到的问题是,第二级详情页采集百分之95都失败。
【错误排除】:
1:第一级做的翻页采集,有抓取结果并且为第二级提供了线索,这一级肯定没错误。
2:第二级的两个规则,针对淘宝跟天猫不同的网页结构,做内容映射。测试的时候,都显示正确。而且加载规则,也是成功的。
3:统计第二级的线索,可以查看到线索数。所以,从第一级转到第二级的过程,应该也是没问题的。
【可能的错误】:
第二级的两个规则,要找个网页标记。我设置各自的网址做内容映射。天猫用的是@href,淘宝用的是@src(淘宝Logo的标签没有@href)。
PS:早以前不知道淘宝页面网页结构不同,第二级只做了天猫的规则。那个时候,抓取第二级还会出结果,只不过抓取地特别慢,其中也有很多抓取失败的。可至少会有个抓取结果的文件夹及部分文件。这次第二级建了两个规则,不仅抓取失败,出结果的文件夹都没生成。
别的可能的错误,实在是想不到了。望大神指点啊!!!跪谢!
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|
|
|
|
共 14 个关于本帖的回复 最后回复于 2016-6-21 16:08