通过点击下载的文件,大多数是pdf格式的,但是有一些是0kb打不开。
从原网站上下载是有大小的文件,说明有源文件。
求解决!

举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2018-5-28 16:45

沙发
wangyong 版主 发表于 2018-5-28 15:31:50 | 只看该作者
这种情况是因为网络太慢抓取太快造成的,放慢抓取速度就好了
举报 使用道具
板凳
a961198229 初级会员 发表于 2018-5-28 15:51:35 | 只看该作者
wangyong 发表于 2018-5-28 15:31
这种情况是因为网络太慢抓取太快造成的,放慢抓取速度就好了

我的项目数量比较多,现在文件已经导完了,是不是得重新添加线索重新下载
举报 使用道具
地板
何波波 金牌会员 发表于 2018-5-28 16:24:46 | 只看该作者
本帖最后由 何波波 于 2018-5-28 16:56 编辑

是的,可以通过设置爬虫群中的参数来放慢抓取速度:https://www.gooseeker.com/doc/article-200-1.html
以下放慢抓取速度相关的参数:

影响采集速度的参数有:
1,线索间等待最短时间  和 线索间等待最长时间  的组合,如 @Fuller 所说
2,最大允许运行爬虫数量:这是运行这个主题的爬虫数量,也就是并行运行的数量,1个最慢
3,延迟抓取时间、一轮线索数量,这个两个组合在一起,让一轮线索数量变小,延迟抓取时间变长,那么每轮调度的周期变长了,每一轮抓的也少了,就会大大变慢
4,超时等待时间:只对失败线索有效,如果这个时间很长,失败前等待时间就长,但是,对于成功抓取的,不会达到这个时间的
5,滚屏次数、滚屏速度,这个两个组合在一起,滚屏速度设置成负数,滚屏次数提高,那么滚得很慢,都是要额外滚很多屏,也会大大变慢
举报 使用道具
5#
a961198229 初级会员 发表于 2018-5-28 16:45:04 | 只看该作者
何波波 发表于 2018-5-28 16:24
是的,以下放慢抓取速度相关的参数:
影响采集速度的参数有:
1,线索间等待最短时间  和 线索间等待最长时 ...

好的,明白啦,谢谢你
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 14:43