17 15832

如何下载特定类型文件

L_Hoops 于 2016-9-6 23:52 发表 [复制链接]
如题,需要下载特定主体的文件(用于作为实验数据),但定位标志没办法做,因为下载链接的class值是空的,求有时间的大神指导一二
附:网址如下,需要下载该网站上所有后缀名为gz的文件
http://www.ngdc.noaa.gov/nndc/struts/results?op_0=eq&t=101378&s=8&d=70&d=75&d=76&d=91&d=74&d=73&d=72&d=81&d=82&d=85&d=86&d=79&no_data=suppress&v_0=NEW1870
举报 使用道具
| 回复

共 17 个关于本帖的回复 最后回复于 2018-1-5 11:40

HJLing 版主 发表于 2016-9-7 09:43:03 | 显示全部楼层
本帖最后由 HJLing 于 2016-9-7 10:06 编辑

方法一:
可以参考这篇教程做层级抓取 http://www.gooseeker.com/doc/article-175-1.html
每个文件都有自己的链接 在@href里
先在页面点击一个gz文件 设置以后每次访问都自动保存
QQ截图20160907094021.png

方法二:
也可以在规则设置连续动作 让它不停地点击每一个gz文件 然后自动下载


每一个文件比较大
1.如果你用层级抓取 可以用爬虫群 设置线索间等待时间长一点 比如几十秒 这样每跑完一条线索会隔几十秒后再跑下一条线索
2.如果用连续动作 可以在高级设置里延时设置几十秒 这样每做完一次点击会隔几十秒后再做下一个点击

举报 使用道具
L_Hoops 初级会员 发表于 2016-9-7 15:27:16 | 显示全部楼层
HJLing 发表于 2016-9-7 09:43
方法一:
可以参考这篇教程做层级抓取 http://www.gooseeker.com/doc/article-175-1.html
每个文件都有自己 ...

我按照那个教程做了的,然而最终得到的还是一系列URL,而不是自动下载的文件,求详细告知具体的操作过程。。。
举报 使用道具
HJLing 版主 发表于 2016-9-7 15:30:29 | 显示全部楼层
L_Hoops 发表于 2016-9-7 15:27
我按照那个教程做了的,然而最终得到的还是一系列URL,而不是自动下载的文件,求详细告知具体的操作过程 ...

那是因为你只做了一个规则 教程是两级规则 第二级才是下载
举报 使用道具
L_Hoops 初级会员 发表于 2016-9-7 15:40:45 | 显示全部楼层
HJLing 发表于 2016-9-7 15:30
那是因为你只做了一个规则 教程是两级规则 第二级才是下载

就是在一个主题下建立两个整理箱吗?
举报 使用道具
HJLing 版主 发表于 2016-9-7 15:41:41 | 显示全部楼层
L_Hoops 发表于 2016-9-7 15:40
就是在一个主题下建立两个整理箱吗?

不是 建立层级规则 教程不是建了两个规则了吗
举报 使用道具
L_Hoops 初级会员 发表于 2016-9-7 15:59:29 | 显示全部楼层
HJLing 发表于 2016-9-7 15:41
不是 建立层级规则 教程不是建了两个规则了吗

教程里两个规则,一个(pdfpage999)是用来抓取下载链接的,另一个(pdf_download999)是用来最终下载文件的,然后需要为pdfpage999勾选下级线索,然后在爬虫路线中的目标主题中填写pdf_download999。运行的时候先运行pdfpage999,再运行pdf_download999 是这样么。。。也就是说上级规则是pdfpage999
举报 使用道具
HJLing 版主 发表于 2016-9-7 16:00:51 | 显示全部楼层
L_Hoops 发表于 2016-9-7 15:59
教程里两个规则,一个(pdfpage999)是用来抓取下载链接的,另一个(pdf_download999)是用来最终下载文 ...

是的
举报 使用道具
L_Hoops 初级会员 发表于 2016-9-7 16:09:06 | 显示全部楼层

我再摸索摸索,谢谢啦
举报 使用道具
lzy163mail 新手上路 发表于 2018-1-5 09:41:35 | 显示全部楼层
L_Hoops 发表于 2016-9-7 15:59
教程里两个规则,一个(pdfpage999)是用来抓取下载链接的,另一个(pdf_download999)是用来最终下载文 ...

你好,是还要在建立主题名 为PDF——download999 的主题吗?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 08:42