主题名:天涯论坛二级评论列表爬取
为了加快爬取速度,我运行了爬虫群,爬虫窗口设置了2个,自启动,对于调度规则的设置,
主要参数设置:一轮停歇时间设置为2秒,线索间等待最短时间40秒,线索间等待最长时间60秒,延迟抓取时间15秒,滚屏次数为2。运行了速度感觉有些慢,我看默认的一些参数设置如:一轮停歇时间设置为2秒,线索间等待最短时间0秒,线索间等待最长时间1秒,延迟抓取时间5秒,滚屏次数为0,是不是默认的效果会更好,速度更快。
求大神根据以往的爬取经验,指点一下,我的参数设置是否合理,有改进的空间么?调度参数设置图片如下。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2016-6-24 22:03

沙发
Fuller 管理员 发表于 2016-6-24 22:03:36 | 只看该作者
你这个设置其实很不合理
1,一轮停歇时间是2秒,几乎就没有停,一轮50条线索(看下面你设置的参数),也叫一批,一批完成后适当停歇一下,不歇也行
2,等待最短和等待最长很不合理,这是没翻页一次或者换一个线索等待的时间。按照你的这个设置,是等待40-60秒之间的一个随机数,这个等待太长了
我认为你感觉速度慢,就是第二点造成的,其它的倒不是大问题。

这些参数的用法参看:http://www.gooseeker.com/doc/article-112-1.html
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-28 04:22