大众点评网的抓取是很容易的,因为这个网站的网页做的是否标准,上面有很多@class可以做为定位标志,所以,抓取规则可以很有适应性。比如上图,把那个@class做定位标志映射,用相同的标志映射给那三个抓取内容,就能解决抓乱的问题,从截图上看,他们本来都有相同的@class=rst,容易抓乱,但是,通过做定位标志映射,人工指定定位标志,就能避开@class=rst,那么就不用设置绝对定位了,设置绝对定位总是不好,容易造成适应度下降。
网页上只有“星级”这个不好选定位标志,5星是@class=item-rank-rst irr-star50,4星是@class=item-rank-rst irr-star40,值不一样,那么就不要做定位标志映射,或者用自定义XPath,把starxxx这个数字避开。
另外,要至少给一个抓取内容设置关键内容,你没有设置,容易漏抓
|
共 8 个关于本帖的回复 最后回复于 2016-2-14 11:10