一个规则运行10多分钟后就显示抓取失败(超时),抓取规则设置不合适或超时时间设置太短,重新开始后过几分钟又会出现同样的问题,每次失败的页面都不一样。按工具--加载规则--按线索号后显示的怎么是第一页?
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2016-2-26 16:59

沙发
Fuller 管理员 发表于 2016-2-25 22:24:05 | 只看该作者
你是翻页失败吗?翻到第几页失败的?超时时间设置了多久?
举报 使用道具
板凳
rfee01 新手上路 发表于 2016-2-26 10:32:50 | 只看该作者
Fuller 发表于 2016-2-25 22:24
你是翻页失败吗?翻到第几页失败的?超时时间设置了多久?

翻到20几页就不动了,但每次失败的页数都不一样,超时时间设置了400
举报 使用道具
地板
Fuller 管理员 发表于 2016-2-26 14:47:03 | 只看该作者
主题名是什么?我帮你查查
举报 使用道具
5#
rfee01 新手上路 发表于 2016-2-26 15:08:32 | 只看该作者
Fuller 发表于 2016-2-26 14:47
主题名是什么?我帮你查查

面膜-御泥坊-01
举报 使用道具
6#
Fuller 管理员 发表于 2016-2-26 16:59:11 | 只看该作者
这个规则加载失败,主要问题在于:
1,评论内容随时都有新评论上来,做规则的时候,通常用第一条,但是,过一会,第一条就是新的了。
2,如果新的评论和老的评论的结构完全相同无所谓,但是这个网页,好多内容是有多有少,比如,城市,客户端,很多评论就没有
3,一旦翻页到某个网页以后,整个网页上的评论都没有这些信息,而你的规则里面设置了 关键内容,那么,关键内容一旦抓不到,就失败了。所以,我把这两个抓取内容的关键内容取消以后,抓取到的内容多了很多
4,如果你想确保规则总是能加载成功,对于变动的内容最好用自定义xpath,而且定位xpath和抓取内容xpath分别写,定位到一个网页上总是有的节点,而提取内容就指向实际含有所需内容的节点,这样,加载规则总是成功,因为加载规则要使用定位用的xpath。

为了提高规则的适应性,最好为抓取内容用上定位标志映射,对于网页结构十分复杂的网页,尽量用定位标志映射。定位标志映射的文档:http://www.gooseeker.com/doc/article-132-1.html
都可以不用做样例复制,而是给“列表”这个抓取内容映射定位标志@class="comments-item"
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 21:14