|
这个规则加载失败,主要问题在于:
1,评论内容随时都有新评论上来,做规则的时候,通常用第一条,但是,过一会,第一条就是新的了。
2,如果新的评论和老的评论的结构完全相同无所谓,但是这个网页,好多内容是有多有少,比如,城市,客户端,很多评论就没有
3,一旦翻页到某个网页以后,整个网页上的评论都没有这些信息,而你的规则里面设置了 关键内容,那么,关键内容一旦抓不到,就失败了。所以,我把这两个抓取内容的关键内容取消以后,抓取到的内容多了很多
4,如果你想确保规则总是能加载成功,对于变动的内容最好用自定义xpath,而且定位xpath和抓取内容xpath分别写,定位到一个网页上总是有的节点,而提取内容就指向实际含有所需内容的节点,这样,加载规则总是成功,因为加载规则要使用定位用的xpath。
为了提高规则的适应性,最好为抓取内容用上定位标志映射,对于网页结构十分复杂的网页,尽量用定位标志映射。定位标志映射的文档:http://www.gooseeker.com/doc/article-132-1.html
都可以不用做样例复制,而是给“列表”这个抓取内容映射定位标志@class="comments-item" |
|
共 5 个关于本帖的回复 最后回复于 2016-2-26 16:59