快捷导航

怎样采集同一网站的不同网页结构信息

2015-12-11 15:33| 发布者: HJLing| 查看: 4196| 评论: 6

摘要: 在采集网页时,有时候会遇到同一个网站展示同类信息的页面有多种网页结构,采集时只能采集与样本页面结构相同的页面,而采集其他不同结构的页面就会报错。 这时就需要用到规则编号这个功能,在同一主题名下,创建规 ...

注意当前版本的程序Bug:假设给同一个主题做了两个抓取规则A和B,B没有爬虫路线规则,而A有爬虫路线规则,那么一定要在创建了B以后再次保存A,否则,A的爬虫路线也不执行。也就是说,规则内容最多的那个规则一定要最后保存一次。这个bug很快就会修复,修复后即时通知大家,目前注意避免。

在采集网页时,有时候会遇到同一个网站展示同类信息的页面有多种网页结构,采集时只能采集与样本页面结构相同的页面,而采集其他不同结构的页面就会报错。这时就需要用到规则编号这个功能,在同一主题名下,创建规则编号不同的采集规则,每个编号的规则,采集一种网页结构。

一、以主题名相同规则编号不同来区分采集规则

以抓取淘宝网商品详情为例,在淘宝网的搜索关键词展示的商品里有淘宝的商品也有天猫的商品。 做层级抓取时第二级页面有的是淘宝的商品详情有的是天猫的商品详情,这时在做第二级的抓取规则时就要在同一主题名下创建两个规则,用不同的规则编号来区分,主题名都是《淘宝_商品详情》,抓取淘宝页面的规则编号为规则_1,天猫的规则编号为规则_2

注意:继续建立第二个规则有两个方法,如下

1)创建新规则:点击文件菜单->新建,在工作台清空后就可以定义新的规则,操作都要重新来一遍。

2)在原有规则的基础上修改:把新网址粘贴到网址框中,加载网页完成后,再点击文件菜单->刷新网页结构->分析页面,此时可能会由于结构不同而报错,定义新规则都可以忽略这些,你要做的是修改规则编号,然后修改规则的映射。


二、定义规则编号不同的采集规则

定义规则编号不同的采集规则最关键的一点,就是每个编号不同的抓取规则至少需要抓取一个本结构页面独有其他结构页面没有的内容,并勾上关键内容,用以区分不同结构的页面,抓取时DS打数机就会自动判断当前页面该使用哪个规则编号的规则。

淘宝和天猫最大的区别是淘宝的商品详情页面有淘宝网的Logo,而天猫的商品详情页面有天猫的Logo,在做规则时,除了要做要抓取的内容的映射后,再多添加一个网页标志,来进行区分。

除了原先决定要采集的标题和价格之外,再添加一个网页标志,用来区分两种网页结构的页面,用来区分淘宝的标志就是淘宝Logo的网页链接,这个链接只有淘宝的页面才有,所以我们在做淘宝页面的规则时将淘宝Logo也抓取下来用作区分标志。 注意要对“网页标志”勾上关键内容。如图3所示。

同理,采集天猫页面时,也抓取天猫Logo,同样也需要勾上关键内容。如上图所示。

这样在同一主题名下定义了两个不同规则编号的规则,在DS打数机运行规则《淘宝_商品详情》采集数据时,会自动根据页面结构匹配到对应规则采集。

6

鲜花

握手
2

雷人

路过

鸡蛋

刚表态过的朋友 (8 人)

相关阅读

发表评论

最新评论

评论 Fuller 2016-8-30 11:36
有正事的小青年: 一个网站,有很多列表,每个列表点进去是一篇文章,设置后再爬文章,有很多匹配失败的,我猜可能是不同文章的结构不同,有的是长篇文字,有的是短篇文字,有的带 ...
在论坛版块发一个帖子吧,那里方便贴图和讨论。把主题名和样本页面网址发出来
评论 有正事的小青年 2016-8-30 11:25
一个网站,有很多列表,每个列表点进去是一篇文章,设置后再爬文章,有很多匹配失败的,我猜可能是不同文章的结构不同,有的是长篇文字,有的是短篇文字,有的带附件,有的不带附件,有的附件是一个excel或者word的链接,有的附件是一篇小短文。还要爬文章中右下角的日期,有的文章有日期,有的没有。有的文章是一个大表格,有的文章即有文字又有表格,这种情况怎么办啊,求大神指导。先谢谢了!
评论 有正事的小青年 2016-8-30 11:19
刷新不了页面啊,点击刷新页面之后,下面浏览器没反应,再点页面分析,就说找不到页面结构
评论 Fuller 2016-8-1 21:40
waq0902: 同一主题不同规则制定之前还要先做下级线索吧?
同一主题下的多个规则基本结构是应该一样的,比如,都有爬虫路线,都有整理箱。只用过程一定要注意:如果有个规则缺爬虫路线或者整理箱,他先存规则,把最全的那个放在最后存。如果以前已经存过了,再存一遍。这是程序的一个bug,按照顺序就不会有问题
评论 waq0902 2016-8-1 20:15
同一主题不同规则制定之前还要先做下级线索吧?
评论 waq0902 2016-8-1 18:53
如果有视频教程就好啦

查看全部评论(6)

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2017-7-26 02:45