【第17期】样例复制及层级抓取

2016-6-3 11:35| 发布者: ym| 查看: 7861| 评论: 0

摘要: 不少用户对样例复制和层级抓取掌握不好,简单来说,样例复制的使用情景就是,当网页上存在多个相同结构的信息时,例如列表型的网页,只需以第一个结构为样例建立整理箱并做映射,再把第一个和第二个结构的dom节点做 ...

不少用户对样例复制和层级抓取掌握不好,简单来说,样例复制的使用情景就是,当网页上存在多个相同结构的信息时,例如列表型的网页,只需以第一个结构为样例建立整理箱并做映射,再把第一个和第二个结构的dom节点做样例复制映射给整理箱的容器节点,就可以把这一页批量抓取下来。

层级抓取,就是层级网页间通过链接关联起来,从而实现批量采集。关键是两级网页间要有相关的链接,例如淘宝搜索关键词后,得到商品列表,通过链接才能访问到下级商品详情页面,所以,通过这个链接,我们就能从搜索关键词到商品详情页进行批量采集,而不是一个网页做一个规则。具体操作就是抓下网页链接并设置下级线索,目标主题名指向下一级主题,从而在DS采集时就会把抓到的链接,自动导入到下级规则,从而批量采集下级页面。注意:采集时还是要分别执行两级规则,并不是自动连贯抓取。

点击观看培训视频




若有疑问可以集搜客网络爬虫

鲜花

握手

雷人

路过

鸡蛋

相关阅读

最新评论

GMT+8, 2024-4-20 20:00