用爬虫下载文件，用点击动作和在整理箱中勾下载有什么区别

发誓学好内容分析

一个最直接，而且最符合人工下载的过程是定义点击动作，让爬虫点击下载按钮，我测试了，也能让爬虫自动下载。

我发现在整理箱中定义抓取内容，抓取文件的网址以后，勾上下载文件，也能下载。

这两种方法有什么区别？哪种更好？

Fuller · 发表于 2021-2-25 10:21:32

原则是：首选整理箱中定义下载规则。
但是，如果没有静态网址，比如，A元素的href是一段javascript代码，那么就不能在整理箱中定义抓取内容，不得不用连续动作中的点击动作。

两者的重要区别是：
1，整理箱中的下载是可控的：如果整理箱中有样例复制，每个样例都有一个下载，那么所有的下载都完成以后才能去采集下一条网址。然而，点击动作是不可控的，点击动作执行以后就不管了，下载什么时候完成，爬虫是不管的，这样有可能会失控，当下载需要很长时间，爬虫有可能没有等待就去执行下一个网址的采集任务了。所以，要设置好网址间的等待，但是，无法精确设置。
2，整理箱中的下载会把文件名和存储位置直接写到采集结果文件中，这样只有一个xml文件，处理起来方便；而点击动作下载，会产生另外一个单独的描述文件，也是xml文件，存于DownloadDir文件夹。文件格式是：

用爬虫下载文件，用点击动作和在整理箱中勾下载有什么区别

本帖子中包含更多资源

共 1 个关于本帖的回复最后回复于 2021-2-25 10:21

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

用爬虫下载文件，用点击动作和在整理箱中勾下载有什么区别

本帖子中包含更多资源

共 1 个关于本帖的回复 最后回复于 2021-2-25 10:21

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

共 1 个关于本帖的回复最后回复于 2021-2-25 10:21