如题,需要下载特定主体的文件(用于作为实验数据),但定位标志没办法做,因为下载链接的class值是空的,求有时间的大神指导一二
附:网址如下,需要下载该网站上所有后缀名为gz的文件
http://www.ngdc.noaa.gov/nndc/struts/results?op_0=eq&t=101378&s=8&d=70&d=75&d=76&d=91&d=74&d=73&d=72&d=81&d=82&d=85&d=86&d=79&no_data=suppress&v_0=NEW1870
举报 使用道具
| 回复

共 17 个关于本帖的回复 最后回复于 2018-1-5 11:40

沙发
HJLing 版主 发表于 2016-9-7 09:43:03 | 只看该作者
本帖最后由 HJLing 于 2016-9-7 10:06 编辑

方法一:
可以参考这篇教程做层级抓取 http://www.gooseeker.com/doc/article-175-1.html
每个文件都有自己的链接 在@href里
先在页面点击一个gz文件 设置以后每次访问都自动保存


方法二:
也可以在规则设置连续动作 让它不停地点击每一个gz文件 然后自动下载


每一个文件比较大
1.如果你用层级抓取 可以用爬虫群 设置线索间等待时间长一点 比如几十秒 这样每跑完一条线索会隔几十秒后再跑下一条线索
2.如果用连续动作 可以在高级设置里延时设置几十秒 这样每做完一次点击会隔几十秒后再做下一个点击

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
板凳
L_Hoops 初级会员 发表于 2016-9-7 15:27:16 | 只看该作者
HJLing 发表于 2016-9-7 09:43
方法一:
可以参考这篇教程做层级抓取 http://www.gooseeker.com/doc/article-175-1.html
每个文件都有自己 ...

我按照那个教程做了的,然而最终得到的还是一系列URL,而不是自动下载的文件,求详细告知具体的操作过程。。。
举报 使用道具
地板
HJLing 版主 发表于 2016-9-7 15:30:29 | 只看该作者
L_Hoops 发表于 2016-9-7 15:27
我按照那个教程做了的,然而最终得到的还是一系列URL,而不是自动下载的文件,求详细告知具体的操作过程 ...

那是因为你只做了一个规则 教程是两级规则 第二级才是下载
举报 使用道具
5#
L_Hoops 初级会员 发表于 2016-9-7 15:40:45 | 只看该作者
HJLing 发表于 2016-9-7 15:30
那是因为你只做了一个规则 教程是两级规则 第二级才是下载

就是在一个主题下建立两个整理箱吗?
举报 使用道具
6#
HJLing 版主 发表于 2016-9-7 15:41:41 | 只看该作者
L_Hoops 发表于 2016-9-7 15:40
就是在一个主题下建立两个整理箱吗?

不是 建立层级规则 教程不是建了两个规则了吗
举报 使用道具
7#
L_Hoops 初级会员 发表于 2016-9-7 15:59:29 | 只看该作者
HJLing 发表于 2016-9-7 15:41
不是 建立层级规则 教程不是建了两个规则了吗

教程里两个规则,一个(pdfpage999)是用来抓取下载链接的,另一个(pdf_download999)是用来最终下载文件的,然后需要为pdfpage999勾选下级线索,然后在爬虫路线中的目标主题中填写pdf_download999。运行的时候先运行pdfpage999,再运行pdf_download999 是这样么。。。也就是说上级规则是pdfpage999
举报 使用道具
8#
HJLing 版主 发表于 2016-9-7 16:00:51 | 只看该作者
L_Hoops 发表于 2016-9-7 15:59
教程里两个规则,一个(pdfpage999)是用来抓取下载链接的,另一个(pdf_download999)是用来最终下载文 ...

是的
举报 使用道具
9#
L_Hoops 初级会员 发表于 2016-9-7 16:09:06 | 只看该作者

我再摸索摸索,谢谢啦
举报 使用道具
10#
lzy163mail 新手上路 发表于 2018-1-5 09:41:35 | 只看该作者
L_Hoops 发表于 2016-9-7 15:59
教程里两个规则,一个(pdfpage999)是用来抓取下载链接的,另一个(pdf_download999)是用来最终下载文 ...

你好,是还要在建立主题名 为PDF——download999 的主题吗?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-23 11:02