翻页抓取时,提示timeout to load the page 怎么办?

在抓取的时候 总是出现 timeout to load the page 怎么解决 帮忙解决一下吧 谢谢

信息结构可能不适合

首先观察DataScraper内嵌的浏览器有没有显示目标页面,如果没有显示,则是目标网站不可访问或者速度太慢,可以将超时时间调大一些。请注意,单位是毫秒。

如果能够显示网页,那么就是定义的抓取规则不适合

那该怎么处理呢

我不明白 浏览器出现了目标页面 但是定义规则不合适 是什么意思 那怎么解决呢? 麻烦了 哦还有请问方不方便 给个qq号什么的 ,这样交流起来可能方便一点 先谢谢了

请将主题名贴出来

请将主题名贴出来,我们能看到抓取规则定义的是否合适。如果抓取规则定义的不合适,就会抓取失败,timeout是失败的一种

主题名

李天一案谣言泛滥 教授:对暗箱操作有黑色记忆 网址http://pinglun.sohu.com/s368906263.html 麻烦您了 每次到第二页就翻不过去了!

关于李天一的主题太多了

MetaSeeker服务器上关于李天一的主题太多了,具体是哪个?

李天一搜狐6

是这个 李天一搜狐6

请您看下这个

我刚刚重新抓了一个 主题名为 杨达才搜狐2 网址是http://pinglun.sohu.com/s353914678.html 这次又是显示 timeout to load page 请麻烦您看一下 问题在哪里 麻烦 谢谢了

抓取定位不准确

您定义的网页抓取规则适应度太差,您需要利用FreeFormat映射,提高网页抓取的定位精度和适应度,请阅读《抓取京东商城商品价格》

请参看我定义的 test_李天一搜狐6,在整理箱上,每个信息属性都做了FreeFormat映射,另外,我加了一层容器节点list,仅仅是为了提高定位精度,这一层可以不加。如果加上这层,则最顶层只做定位之用,也就是抓取的范围限定在DIV[@class='comList allList clear']这个节点下。然后在list这层定义样例复制品规则,用以抓取多个评论。

还是无法翻页 提示 timeout to load

您好 请您看下我的主题 杨达才搜狐4 我是按照您的说法 做的 可是还是出现问题了 麻烦您再看一下 问题出在哪里? 还有为什么就是不翻页呢?

搜狐新闻评论抓取技巧

请参考 test_杨达才搜狐4 ,做了以下改动:

  1. 用MetaStudio菜单设置AJAX抓取选项,因为搜狐新闻评论采用javascript管理网页内容,要设置延长模式和积极模式
  2. 在Clue Editor工作台上,那个翻页线索的“下一页”要使用“部分匹配规则”,就是最右侧的那个字母T一样的符号,不要打勾。这是因为从第三页开始,翻页按钮变成“下一页 ”,最后有空格,所以,选择部分匹配,只匹配“下一页”这三个字

另外,DataScraper的菜单上要设置终点标志,因为每个翻页按钮都对应javascript:void(0)代码,不能选择“配置”-〉“终点标志”-〉“void脚本”