能不能控制抓取的速度?现在我抓取百度google,都因为过快而被封IP,dataScraper能控制两个抓取请求之间的时间间隔吗?
参看周期性调度文件的说明,配置minIdle和maxIdle,可以调整等待时间。
你每天抓取量多大就被封锁了?是用MetaSeeker抓取吗?我很少碰到被封锁的情况。
百度跟google对这个很敏感的,经常封我的爬虫,我刚开始用MetaSeeker就被封了,郁闷。
以前曾经抓取google的讨论组中的帖子,一般800网页就封锁了,需要重新ADSL拨号,以便换个IP地址。周期性调度文件中有个参数width,用于限制网页数量,设置一个安全的数字。
使用周期性调度文件crontab.xml
参看周期性调度文件的说明,配置minIdle和maxIdle,可以调整等待时间。
你每天抓取量多大就被封锁了?是用MetaSeeker抓取吗?我很少碰到被封锁的情况。
百度跟google对这个很
百度跟google对这个很敏感的,经常封我的爬虫,我刚开始用MetaSeeker就被封了,郁闷。
可以换IP地址
以前曾经抓取google的讨论组中的帖子,一般800网页就封锁了,需要重新ADSL拨号,以便换个IP地址。周期性调度文件中有个参数width,用于限制网页数量,设置一个安全的数字。