本帖最后由 wangyong 于 2017-8-25 18:13 编辑

网页采集 ->  中级视频 -> 采集淘宝天猫数据

不想看广告?直接下视频

这个教程主要是讲爬虫怎样识别淘宝和天猫的页面并分别调用相应的规则进行抓取。
打数机抓取时的分辨标志是在做规则的时候手工创建的key(即关键内容),GooSeeker的每个采集规则适应一种网页结构,淘宝和天猫商品页的结构是不同的,所以要创建两个规则。两个规则中都要分别创建一个key,淘宝规则中创建的key必须是淘宝页面唯一特有而天猫页面没有的,天猫规则中的key是天猫中独有,淘宝中没有,这样打数机通过这个标志就可以知道该用哪个规则来抓。

主播在讲这个教程时犯了一个错误,他所选择的淘宝规则的key,虽然天猫的规则没有出现,但是也不是所有的淘宝页面都有这个内容,所以在抓取的时候就会有出错。

我们选择淘宝规则的key时,一定是淘宝页面仅有同时还是所有的淘宝页面都有,选择天猫规则的key时一定是天猫的页面独有,并且每个天猫页面都有。

大家在看这个视频时看到后半部分看不明白的话可以看第28期的视频,主播在第28期有特意纠正这个问题。
举报 使用道具
| 回复

共 9 个关于本帖的回复 最后回复于 2017-9-17 23:11

沙发
花生论坛 初级会员 发表于 2016-8-26 16:18:03 | 只看该作者
key是什么意思?
举报 使用道具
板凳
HJLing 版主 发表于 2016-8-26 16:19:08 | 只看该作者

只是一个抓取内容的名字 随便取的 作为关键内容区分天猫和淘宝的页面
举报 使用道具
地板
Fuller 管理员 发表于 2016-8-26 16:56:53 | 只看该作者
关于关键内容的解释,可以在教程页上搜索“关键内容”:http://www.gooseeker.com/tuto/tutorial.html
比如,可以看到这个针对案例的解释:http://www.gooseeker.com/doc/thread-1844-1-1.html
举报 使用道具
5#
Alexisheee 初级会员 发表于 2016-11-9 20:39:27 | 只看该作者
为什么视频不能看?
举报 使用道具
6#
Fuller 管理员 发表于 2016-11-9 20:58:31 | 只看该作者
Alexisheee 发表于 2016-11-9 20:39
为什么视频不能看?

我在chrome和火狐下都能看。刷新一下网页 试试。如果不行,观看窗口下有下载链接,下载下来看
举报 使用道具
7#
Alexisheee 初级会员 发表于 2016-11-9 21:37:13 | 只看该作者
Fuller 发表于 2016-11-9 20:58
我在chrome和火狐下都能看。刷新一下网页 试试。如果不行,观看窗口下有下载链接,下载下来看
...

请问有同时抓取一个商品的 名称、销量 和 很多页评论的教程么
举报 使用道具
8#
Fuller 管理员 发表于 2016-11-9 21:43:05 | 只看该作者
Alexisheee 发表于 2016-11-9 21:37
请问有同时抓取一个商品的 名称、销量 和 很多页评论的教程么

有现成的规则,需要两级,第一级:http://www.gooseeker.com/res/detail_89624.html ,第二级:http://www.gooseeker.com/res/detail_89622.html
举报 使用道具
9#
Alexisheee 初级会员 发表于 2016-11-9 21:51:16 | 只看该作者
Fuller 发表于 2016-11-9 21:43
有现成的规则,需要两级,第一级:http://www.gooseeker.com/res/detail_89624.html ,第二级:http://ww ...

我把评论和别的信息都放在一起抓取了,貌似别的信息就丢失了?
我抓取的是大众点评。。。不能直接用这个规则
举报 使用道具
10#
Fuller 管理员 发表于 2016-11-9 22:08:07 | 只看该作者
Alexisheee 发表于 2016-11-9 21:51
我把评论和别的信息都放在一起抓取了,貌似别的信息就丢失了?
我抓取的是大众点评。。。不能直接用这个 ...

如果需要诊断规则问题,请在“使用交流”版块发帖,贴上问题描述和主题名
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-22 11:41