一个最直接,而且最符合人工下载的过程是定义点击动作,让爬虫点击下载按钮,我测试了,也能让爬虫自动下载。

我发现在整理箱中定义抓取内容,抓取文件的网址以后,勾上下载文件,也能下载。

这两种方法有什么区别?哪种更好?
下载20210225101410.png

举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2021-2-25 10:21

Fuller 管理员 发表于 2021-2-25 10:21:32 | 显示全部楼层
原则是:首选整理箱中定义下载规则。
但是,如果没有静态网址,比如,A元素的href是一段javascript代码,那么就不能在整理箱中定义抓取内容,不得不用连续动作中的点击动作。

两者的重要区别是:
1,整理箱中的下载是可控的:如果整理箱中有样例复制,每个样例都有一个下载,那么所有的下载都完成以后才能去采集下一条网址。然而,点击动作是不可控的,点击动作执行以后就不管了,下载什么时候完成,爬虫是不管的,这样有可能会失控,当下载需要很长时间,爬虫有可能没有等待就去执行下一个网址的采集任务了。所以,要设置好网址间的等待,但是,无法精确设置。
2,整理箱中的下载会把文件名和存储位置直接写到采集结果文件中,这样只有一个xml文件,处理起来方便;而点击动作下载,会产生另外一个单独的描述文件,也是xml文件,存于DownloadDir文件夹。文件格式是:

download20210225102109.png
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 17:54