采集的时候timeout了,通过线索编号在谋数台加载可以成功可以通过分析,但确实没有结果文件产生
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2016-1-23 09:52

沙发
wangyong 版主 发表于 2016-1-15 21:59:08 | 只看该作者
通过线索编号在谋数台可以成功通过分析代表规则是正确的,没有但还是没有结果文件产生的原因可能出在打数机身上。
1.在打数机里勾选允许加载js,有些网页时JavaScript动态异步加载,如果没有允许加载JavaScript的话有些网页上的数据可能没有显示,所以就会抓取失败。
2.将超时时长的长一点,抓取网页的时候,加载目标网页命令发出以后将等待一段时间,以确保网页内容全面下载,这就是超时时长参数,以秒为单位。如果超过这个时间还没有将需要的内容加载到打数机中,就会在打数机底部日志窗口显示一条错误提示。如果超时时长设的过短的话,可能网页还没有加载完成打数机就进行抓取了,就会抓取失败。
3.滚屏参数设大一些,抓取AJAX网页上的数据,这些数据一开始没有从服务 器上下载下来,直到用户滚动浏览器屏幕并在窗口中显示这些数据时才下载。将滚屏参数设大保证数据显示完整。
举报 使用道具
板凳
Fuller 管理员 发表于 2016-1-23 09:52:51 | 只看该作者
wangyong 发表于 2016-1-15 21:59
通过线索编号在谋数台可以成功通过分析代表规则是正确的,没有但还是没有结果文件产生的原因可能出在打数机 ...

超时时长解答的不对。

超时时长是一个保护机制,确保爬虫不会被挂起,GooSeeker网络爬虫有自适应算法,能够自动决定抓取时机,所以,超时时长可以设置得长一些。

自适应判断有失效的时候,比如,出现“需要优化”的提示,例如:http://www.gooseeker.com/doc/thread-652-1-3.html  ,这样可以根据那篇文章进行调优
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-5 00:24