本帖最后由 wangyong 于 2017-8-25 18:13 编辑
网页采集 -> 中级视频 -> 采集淘宝天猫数据
不想看广告?直接下视频
这个教程主要是讲爬虫怎样识别淘宝和天猫的页面并分别调用相应的规则进行抓取。
打数机抓取时的分辨标志是在做规则的时候手工创建的key(即关键内容),GooSeeker的每个采集规则适应一种网页结构,淘宝和天猫商品页的结构是不同的,所以要创建两个规则。两个规则中都要分别创建一个key,淘宝规则中创建的key必须是淘宝页面唯一特有而天猫页面没有的,天猫规则中的key是天猫中独有,淘宝中没有,这样打数机通过这个标志就可以知道该用哪个规则来抓。
主播在讲这个教程时犯了一个错误,他所选择的淘宝规则的key,虽然天猫的规则没有出现,但是也不是所有的淘宝页面都有这个内容,所以在抓取的时候就会有出错。
我们选择淘宝规则的key时,一定是淘宝页面仅有同时还是所有的淘宝页面都有,选择天猫规则的key时一定是天猫的页面独有,并且每个天猫页面都有。
大家在看这个视频时看到后半部分看不明白的话可以看第28期的视频,主播在第28期有特意纠正这个问题。
|
|
|
|
|
共 9 个关于本帖的回复 最后回复于 2017-9-17 23:11