您好!
经过这三天的学习,目前本人已基本掌握了定义提取数据规则和线索的基本能力. 在此感谢版主对我们的技术支持. 后面本人也会把自己的学习总结,给出来与大家分享.
话回正题,目前本人又遇到了问题:
1. 需要无人看守下,定制周期性任务.看了相关的资料,知道需要配置特定文件.请问有具体对此配置的一个详细说明呢?
2. 在抓取大量数据时,由于网站对访问速度过快做了限制,导致网站给出了"对不起,你访问的太快了,请稍后再试。"的问题,导致没能正常抓取结束.对于这种问题,不知道有否解决方法?另:是否会有类似于断点续传的功能,当出现这种问题,稍后是可以重新在异常点下,继续抓取.或者是否可以有控制程序抓取(访问)的速度呢?
望能回复.
谢谢.
周期性网页抓取配置方法
进行周期性网页抓取需要一个指令文件,文件应该存于$HOME/.datascraper/目录中,文件名字是crontab.xml,请参照周期性网页抓取调度文件编写该文件。
如果想延迟网页抓取操作,可以在周期性网页抓取调度文件中配置minIdle和maxIdle参数
最新的V4.10.0版本实现了某些情形下的断点续传,主要用于翻页抓取,单页抓取也可以使用,参看连续翻页抓取网站信息中断了怎么办?但是,您说的情形(网站给出了"对不起,你访问的太快了,请稍后再试。")不一定可行,因为在这种情形下该网站很有可能下发的是HTTP 200 OK消息,在DataScraper看来,这个网页正确下载了,只是网页内容是"对不起,你访问的太快了,请稍后再试。"。也就是说,DataScaper断点续传是用于接收到HTTP失败消息或者TCP层失败等情形。