我抓取类似以下的页面
http://finance.sina.com.cn/fund/quotes/161907/bc.shtml
ds打数机里,
我不变的设置主要有勾选定时器触发,配置浏览器全勾选,勾选关闭弹窗。
延迟时长我试过20.30.40,滚屏参数试过1*-5,1*-4,1*-3,,0*很多,2*-2等等,但还是有些会出现time out 的问题,
我现在的设置为超时时长20,滚屏参数1*-4
抓取过程中,发现有很多是"time out"问题,也有很多是"抓取成功,爬虫尚待优化" 问题。
试抓取过程中,我发现这种页面很快就加载完我的网速基本上20秒加载完成,而且我发现很多没有滚屏到我需要抓取的数据那里也抓取成功了,虽然有些页面不符合我规则的页面会time out,但是有些适合我规则的,即使加载完滚屏到底,还是会time out ,我想问问问题出在哪里??
这种页面我抓取时间可以花费长一点,但是我希望数据能完整,不出现time Out,我应该怎么设置延迟时长,滚屏参数,勾选定时器触发,配置浏览器全勾选,勾选关闭弹窗等一系列参数??
先谢过了。
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2016-1-25 14:45

沙发
gooseeker_info 金牌会员 发表于 2016-1-19 09:18:21 | 只看该作者
首先,一定要清楚理解超时时长参数的含义。GooSeeker软件与其他软件不同,GooSeeker能够自动识别什么时候可以执行抓取,不用超时时长控制,是自主判断的。而超时时长只是一个保护机制,万一抓取规则不合适,软件不能永久等待下去。注意:判断抓取时机主要靠 “关键内容”,所以,一定要选一个抓取内容勾上“关键内容”

其次,出现“尚待优化”的原因是:GooSeeker一直在等待抓取时机,但是有些网页的内容一直在变化,虽然人眼看不到,但是GooSeeker能发现网页上的JavaScript一直在修改网页内容。GooSeeker就会一直等,担心会有漏抓或者抓错的情况(比如,淘宝上的累积销售这个数字就是迟后刷新的),如果网页内容一直变的话,就会等到超时了,此时,GooSeeker不得不去执行抓取,用抓取规则去套用,发现设置了“关键内容”的都抓到了,就会提示“抓取成功,爬虫尚待优化”。优化的方法是:设置 定时器触发 。这个参数轻易不要用,防止抓错或者抓漏,因为它能促使GooSeeker更早地进行抓取
举报 使用道具
板凳
myz8110 初级会员 发表于 2016-1-19 23:30:42 | 只看该作者
本帖最后由 myz8110 于 2016-1-19 23:53 编辑
gooseeker_info 发表于 2016-1-19 09:18
首先,一定要清楚理解超时时长参数的含义。GooSeeker软件与其他软件不同,GooSeeker能够自动识别什么时候可 ...

GooSeeker能够自动识别什么时候可以执行抓取,不用超时时长控制,是自主判断的。而超时时长只是一个保护机制,万一抓取规则不合适,软件不能永久等待下去。注意:判断抓取时机主要靠 “关键内容”,所以,一定要选一个抓取内容勾上“关键内容”


在谋数台设置规则的时候,“关键内容”我有些是勾上的,有些没有(因为有些网页没有这些数据,所以我没有勾上),但是我在ds打数机抓取数据的时候,粗略看有些页面跟我在谋数台设置规则时的样本页面,网页结构是一样的,也会出现timeout,为了避免歧义,我查看ds打数机的“统计线索”,发现只有“抓取失败”和“成功抓取”,没有“规则不适用”
我现在ds打数机的设置是超时时长是20秒,滚屏次数是1,滚屏速度是-3,勾上的是全屏,关闭弹窗,配置浏览器三个都勾上了,(没有勾上“定时器触发”),抓取数据有些页面是timeout,有些是“还有优化空间”。
我在想在某数台里是不是只设置一个(想要抓取的所有网页都必有的)“关键内容”,其他的全部不勾上“关键内容”是不是更好??
举报 使用道具
地板
myz8110 初级会员 发表于 2016-1-19 23:50:12 | 只看该作者
gooseeker_info 发表于 2016-1-19 09:18
首先,一定要清楚理解超时时长参数的含义。GooSeeker软件与其他软件不同,GooSeeker能够自动识别什么时候可 ...

对了,我已经发布了这2条规则,可惜不能0资源发布,“新浪基金”是第一条规则,翻页抓取数据,生成网址作为下级线索,第二条规则“具体内容”从这些下级线索中抓取数据,以上的问题出现在第二条规则里。
我怕我上面讲的不够详细
版主你能高抬贵手,施舍2资源币帮我看看吗??
举报 使用道具
5#
Fuller 管理员 发表于 2016-1-19 23:58:31 | 只看该作者
myz8110 发表于 2016-1-19 23:30
GooSeeker能够自动识别什么时候可以执行抓取,不用超时时长控制,是自主判断的。而超时时长只是一个保护机 ...

1)超时时间太短了,60秒比较合适
2)滚屏速度是-3,负数是很慢的,越小越慢,这样时间就更不够用了

看到timeout 日志后,记下线索编号,在MS谋数台上可以分析失败原因,选择菜单 工具-〉加载规则-〉按线索号 。加载后会提示哪个抓取内容定位不到
举报 使用道具
6#
Fuller 管理员 发表于 2016-1-19 23:59:21 | 只看该作者
myz8110 发表于 2016-1-19 23:50
对了,我已经发布了这2条规则,可惜不能0资源发布,“新浪基金”是第一条规则,翻页抓取数据,生成网址作 ...

因为我有管理员权限,只要告诉我主题名,我就能加载分析。不用发布。今天晚上没时间了,我还要处理一个标书,明天我帮你看看
举报 使用道具
7#
wangyong 版主 发表于 2016-1-20 10:35:52 | 只看该作者
myz8110 发表于 2016-1-19 23:50
对了,我已经发布了这2条规则,可惜不能0资源发布,“新浪基金”是第一条规则,翻页抓取数据,生成网址作 ...

我加载了你的规则,发现你用的是绝对定位,使用绝对定位定义的规则适用性不太高,不建议使用绝对定位,建议使用偏好@class或者@id,并做上定位标志映射。网页上确实有JavaScript一直在修改网页内容,所以会出现“还有优化空间”的提示。
建议:1.关键内容是一定要有的;2.将超市时长设为60秒;3.勾选定时器触发;4.改用偏好@class或者@id并做定位标志映射;5.如果还是有出现timeout的情况,就按照线索编号到谋数台里加载分析什么原因。
举报 使用道具
8#
myz8110 初级会员 发表于 2016-1-25 14:24:14 | 只看该作者
wangyong 发表于 2016-1-20 10:35
我加载了你的规则,发现你用的是绝对定位,使用绝对定位定义的规则适用性不太高,不建议使用绝对定位,建 ...

谢谢版主回复,根据你的提示,我初步试了下,可行但还是存在问题。据我的观察,虽然统计线索里显示是抓取失败,但我发现是规则不适用造成的,因为有些页面有10大重仓股,有的没有,而我的抓取规则时的样本页面是有10大重仓股的,所以ds在没有10大重仓股的页面就抓取失败了。
http://www.gooseeker.com/doc/article-191-1.html
怎样采集同一网站的不同网页结构信息
我本来想在同一主题下用规则2来解决这问题,但没想到关键区别在哪里,暂时没想到什么好办法解决。
举报 使用道具
9#
wangyong 版主 发表于 2016-1-25 14:45:18 | 只看该作者
myz8110 发表于 2016-1-25 14:24
谢谢版主回复,根据你的提示,我初步试了下,可行但还是存在问题。据我的观察,虽然统计线索里显示是抓取 ...

如果有的页面没有重仓股的话就不要对重仓股勾关键内容
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 21:53