集搜客GooSeeker网络爬虫 › 官方文档 ›资讯 › 查看内容

电商图片下载后怎样使用Jupyter Notebook合并目录

2021-7-5 15:29| 发布者: Fuller| 查看: 5029| 评论: 0

摘要: 使用快捷采集下载的图片，会按层次结构有规律的存放，由于目录的命名有网址(实际取网址id)和时间戳2部分，不用担心图片的重名覆盖，非常适合自动处理和大量数据的存放。有同学在技术交流群问怎样把下载的所有图片自 ...

1，本Notebook缘起

上周我们发布了一篇怎样使用快捷采集下载图片的教程：如何使用快捷采集下载图片-以京东搜索结果图片为例。

使用快捷采集下载的图片，会按层次结构有规律的存放，由于目录的命名有网址(实际取网址id)和时间戳2部分，不用担心图片的重名覆盖，非常适合自动处理和大量数据的存放：

图片文件就存放在多层目录下：数据管家结果目录 + 任务名 + 网址id_采集时间戳

有同学在技术交流群问怎样把下载的所有图片自动合并到同一个目录下，方便人工查看或者用其它软件做进一步处理，至于可能发生的图片重名覆盖问题，说是先不考虑。

比如把上图中的3个文件夹下面的图片，都放到“合并文件夹”下面：

今天这个notebook就是为了满足这部分同学的需求而出的。

2，数据采集-图片下载

见之前已发布的1篇文章：如何使用快捷采集下载图片-以京东搜索结果图片为例

3，为什么做成Jupyter Notebook模板的形式

GooSeeker每年都要支持各个大学的毕业生采集数据完成他们的毕业设计。GooSeeker有一套微博采集工具，专门面向不希望编写网络爬虫程序的研究者设计的。例如，可以先从微博关键词搜索入口，把搜到的涉及“xx城市空气”的微博话题采集下来，然后把这些话题的微博博文采集下来。微博博文内容呈现方式很丰富，文字、图片、视频都有。这些内容都可以采集下来，分别进行分析。例如，将视频采集下来以后抽取关键帧图片，利用图片分析方法进行分析。针对重点的微博内容，可以深入采集转发和评论，转发者和评论者，可分析和描述传播的特征和转发者和评论者的传播者特征。还可以根据博主的粉丝数计算传播的量化特征。

GooSeeker推出多个微博采集工具，匹配高校师生从不同角度、不同传播路径、不同内容呈现采集数据的需求。同样也适用于公共领域和民间舆论场分析，市场和商业环境分析等。

数据采集下来之后，需要趁手的工具来做数据处理和数据分析，GooSeeker提供了文本分词和情感分析软件，同时也推出了系列Jupyter Notebook，借助于python的大量第三方库，为数据分析大量强大的工具。

Jupyter Notebook这类交互式数据探索和分析工具代表了一股不容忽视的潮流，借助于Python编程的强大力量，数据加工的能力和灵活性已经有相当明显的优势，尤其是程序代码和文字描述可以混合编排，数据探索和数据描述做完了，一篇研究报告也基本上成型了。

然而Python毕竟是一个全功能的编程语言，对于非编程出身的数据分析师来说，Pandas，Numpy，Matplotlib这些词让人望而生畏。本系列Notebook将设法解决这个问题，让非编程出身的数据分析师能够忽略复杂的编程过程，专注于数据处理和统计分析部分，就像使用Excel的公式一样驾驭Python。

所以，我们将尝试发布一系列Jupyter Notebook，像文档模板，一些基本的程序环境设置、文件操作等固化下来，在设定的分析场景下不需要改动程序代码。而数据处理部分的代码可以根据需要截取选用。每一项功能用一个code cell存代码，不需要的处理功能可以删除。

4，notebook模板的存储结构

本notebook项目目录都预先规划好了，具体参看Jupyter Notebook项目目录规划参考。如果要做多个分析项目，可以把整个模板目录专门拷贝一份给每个分析项目。

5，简要技术说明

在每个功能项单元，如果不需要关心的编程细节，将注明【编程细节】。

本notebook主要实现以下几个步骤：

1. 使用者指定要合并图片任务目录

2. 把该任务目录下PageContentDir下面的各个目录下的图片，复制一份到“合并文件夹_当前时间”

6，数据源

数据源是如何使用快捷采集下载图片-以京东搜索结果图片为例采集得到的结果表和图片。供参考和实验。

7，修改历史

2021-07-03：第一版发布