我抓取类似以下的页面
http://finance.sina.com.cn/fund/quotes/161907/bc.shtml
ds打数机里,
我不变的设置主要有勾选定时器触发,配置浏览器全勾选,勾选关闭弹窗。
延迟时长我试过20.30.40,滚屏参数试过1*-5,1*-4,1*-3,,0*很多,2*-2等等,但还是有些会出现time out 的问题,
我现在的设置为超时时长20,滚屏参数1*-4
抓取过程中,发现有很多是"time out"问题,也有很多是"抓取成功,爬虫尚待优化" 问题。
试抓取过程中,我发现这种页面很快就加载完我的网速基本上20秒加载完成,而且我发现很多没有滚屏到我需要抓取的数据那里也抓取成功了,虽然有些页面不符合我规则的页面会time out,但是有些适合我规则的,即使加载完滚屏到底,还是会time out ,我想问问问题出在哪里??
这种页面我抓取时间可以花费长一点,但是我希望数据能完整,不出现time Out,我应该怎么设置延迟时长,滚屏参数,勾选定时器触发,配置浏览器全勾选,勾选关闭弹窗等一系列参数??
先谢过了。 |
|
|
|
|
共 8 个关于本帖的回复 最后回复于 2016-1-25 14:45