在抓取的时候 总是出现 timeout to load the page 怎么解决 帮忙解决一下吧 谢谢
首先观察DataScraper内嵌的浏览器有没有显示目标页面,如果没有显示,则是目标网站不可访问或者速度太慢,可以将超时时间调大一些。请注意,单位是毫秒。
如果能够显示网页,那么就是定义的抓取规则不适合
我不明白 浏览器出现了目标页面 但是定义规则不合适 是什么意思 那怎么解决呢? 麻烦了 哦还有请问方不方便 给个qq号什么的 ,这样交流起来可能方便一点 先谢谢了
请将主题名贴出来,我们能看到抓取规则定义的是否合适。如果抓取规则定义的不合适,就会抓取失败,timeout是失败的一种
李天一案谣言泛滥 教授:对暗箱操作有黑色记忆 网址http://pinglun.sohu.com/s368906263.html 麻烦您了 每次到第二页就翻不过去了!
MetaSeeker服务器上关于李天一的主题太多了,具体是哪个?
是这个 李天一搜狐6
我刚刚重新抓了一个 主题名为 杨达才搜狐2 网址是http://pinglun.sohu.com/s353914678.html 这次又是显示 timeout to load page 请麻烦您看一下 问题在哪里 麻烦 谢谢了
您定义的网页抓取规则适应度太差,您需要利用FreeFormat映射,提高网页抓取的定位精度和适应度,请阅读《抓取京东商城商品价格》
请参看我定义的 test_李天一搜狐6,在整理箱上,每个信息属性都做了FreeFormat映射,另外,我加了一层容器节点list,仅仅是为了提高定位精度,这一层可以不加。如果加上这层,则最顶层只做定位之用,也就是抓取的范围限定在DIV[@class='comList allList clear']这个节点下。然后在list这层定义样例复制品规则,用以抓取多个评论。
您好 请您看下我的主题 杨达才搜狐4 我是按照您的说法 做的 可是还是出现问题了 麻烦您再看一下 问题出在哪里? 还有为什么就是不翻页呢?
请参考 test_杨达才搜狐4 ,做了以下改动:
另外,DataScraper的菜单上要设置终点标志,因为每个翻页按钮都对应javascript:void(0)代码,不能选择“配置”-〉“终点标志”-〉“void脚本”
信息结构可能不适合
首先观察DataScraper内嵌的浏览器有没有显示目标页面,如果没有显示,则是目标网站不可访问或者速度太慢,可以将超时时间调大一些。请注意,单位是毫秒。
如果能够显示网页,那么就是定义的抓取规则不适合
那该怎么处理呢
我不明白 浏览器出现了目标页面 但是定义规则不合适 是什么意思 那怎么解决呢? 麻烦了 哦还有请问方不方便 给个qq号什么的 ,这样交流起来可能方便一点 先谢谢了
请将主题名贴出来
请将主题名贴出来,我们能看到抓取规则定义的是否合适。如果抓取规则定义的不合适,就会抓取失败,timeout是失败的一种
主题名
李天一案谣言泛滥 教授:对暗箱操作有黑色记忆 网址http://pinglun.sohu.com/s368906263.html 麻烦您了 每次到第二页就翻不过去了!
关于李天一的主题太多了
MetaSeeker服务器上关于李天一的主题太多了,具体是哪个?
李天一搜狐6
是这个 李天一搜狐6
请您看下这个
我刚刚重新抓了一个 主题名为 杨达才搜狐2 网址是http://pinglun.sohu.com/s353914678.html 这次又是显示 timeout to load page 请麻烦您看一下 问题在哪里 麻烦 谢谢了
抓取定位不准确
您定义的网页抓取规则适应度太差,您需要利用FreeFormat映射,提高网页抓取的定位精度和适应度,请阅读《抓取京东商城商品价格》
请参看我定义的 test_李天一搜狐6,在整理箱上,每个信息属性都做了FreeFormat映射,另外,我加了一层容器节点list,仅仅是为了提高定位精度,这一层可以不加。如果加上这层,则最顶层只做定位之用,也就是抓取的范围限定在DIV[@class='comList allList clear']这个节点下。然后在list这层定义样例复制品规则,用以抓取多个评论。
还是无法翻页 提示 timeout to load
您好 请您看下我的主题 杨达才搜狐4 我是按照您的说法 做的 可是还是出现问题了 麻烦您再看一下 问题出在哪里? 还有为什么就是不翻页呢?
搜狐新闻评论抓取技巧
请参考 test_杨达才搜狐4 ,做了以下改动:
另外,DataScraper的菜单上要设置终点标志,因为每个翻页按钮都对应javascript:void(0)代码,不能选择“配置”-〉“终点标志”-〉“void脚本”