问:模拟点击与层级设置分别适用于什么时候呢?感觉很相似啊
答:两个完全不同的概念,层级抓取就是一层层深入进去抓取内容,比如,先抓类别,再抓列表,再抓详情,再抓评论。各层可以各自独立运行DS打数机,相互之间没有前后约束。但是你可能说:没有抓列表的时候,详情就没有线索可用。虽然事实是这样,但是,两级分别运行也没有错,顶多是详情那一级在等着。
模拟点击就不一样了,一定要点了上一级就进入下一级。模拟点击是不符合爬虫的普通爬行原则的,但是动态网页也无法分开爬,只能用模拟点击。
问:模拟点击是只需要运行第一级规则就可以了么?然后层级是从一个界面到下一级界面?
我的理解是,比如说抓取淘宝商品详情里头的评论,要先点击“评论”之后页面才会跳到评论列表,原来默认的是图文详情,点击的这个过程就叫模拟点击。
答:是的,淘宝采用了动态技术,只有采用模拟点击才能看到评论。评论列表没有自己独立的网址,只能用模拟点击,从一级直接跳到二级。如果有自己的独立网址,用层级比较好,灵活,可以分布在爬虫群上快速抓取,参看:http://www.gooseeker.com/doc/article-197-1.html
|
|
|
|
|
共 0 个关于本帖的回复 最后回复于 2015-12-16 23:40