采集的时候timeout了,通过线索编号在谋数台加载可以成功可以通过分析,但确实没有结果文件产生
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2016-1-23 09:52

沙发
wangyong 版主 发表于 2016-1-15 21:59:08 | 只看该作者
通过线索编号在谋数台可以成功通过分析代表规则是正确的,没有但还是没有结果文件产生的原因可能出在打数机身上。
1.在打数机里勾选允许加载js,有些网页时JavaScript动态异步加载,如果没有允许加载JavaScript的话有些网页上的数据可能没有显示,所以就会抓取失败。
2.将超时时长的长一点,抓取网页的时候,加载目标网页命令发出以后将等待一段时间,以确保网页内容全面下载,这就是超时时长参数,以秒为单位。如果超过这个时间还没有将需要的内容加载到打数机中,就会在打数机底部日志窗口显示一条错误提示。如果超时时长设的过短的话,可能网页还没有加载完成打数机就进行抓取了,就会抓取失败。
3.滚屏参数设大一些,抓取AJAX网页上的数据,这些数据一开始没有从服务 器上下载下来,直到用户滚动浏览器屏幕并在窗口中显示这些数据时才下载。将滚屏参数设大保证数据显示完整。
举报 使用道具
板凳
Fuller 管理员 发表于 2016-1-23 09:52:51 | 只看该作者
wangyong 发表于 2016-1-15 21:59
通过线索编号在谋数台可以成功通过分析代表规则是正确的,没有但还是没有结果文件产生的原因可能出在打数机 ...

超时时长解答的不对。

超时时长是一个保护机制,确保爬虫不会被挂起,GooSeeker网络爬虫有自适应算法,能够自动决定抓取时机,所以,超时时长可以设置得长一些。

自适应判断有失效的时候,比如,出现“需要优化”的提示,例如:http://www.gooseeker.com/doc/thread-652-1-3.html  ,这样可以根据那篇文章进行调优
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-19 14:03