配套软件版本:V9及更低 集搜客网络爬虫软件 新版本对应教程:V10及更高 数据管家——增强版网络爬虫 的对应教程是《采集图片网址并下载图片》 集搜客9.0.0版本,可以很方便的把网页上某块区域的图片或者视频都抓取下来,保存在本地。我们以图片抓取为例,来讲解操作过程。视频抓取的操作是一样的。 第一步,下载安装集搜客爬虫软件 第二步,运行集搜客爬虫浏览器,登录会员中心。 第三步,把待采集网页的链接输入到浏览器的输入框,回车。把网页加载出来,点击网址输入栏右侧的定义规则按钮,进入定义规则模式。 屏幕显示分成上下部分,上面是网页浏览窗口,下面是网页对应的DOM节点窗口。还有一个浮动的工作台。 在工作台上给规则命名,如图所示。规则名要查重,不要和别人的规则重名。然后点击工作台上的创建规则,开始做规则,首先新建一个整理箱,整理箱的名字可以随便起。但是最好有意义。本例中规则名是:图片采集教程。整理箱的名字是卫衣图片。 网页上的价格,商品名称等等都可以抓取,可以看采集网页数据教程。本篇教程只讲怎样抓取区域内的图片。 1. 内容映射 下图是在京东搜索“卫衣男”后,得到的一个列表页,我们要抓整个列表区域内所有的图片。在这个区域内任意点击一个图或者文字,会对应到下面的一个DOM节点,沿着这个DOM节点往上找,直至整个卫衣列表区域变黄,然后右击当前DOM节点,新建一个抓取内容,比如“图片”。“图片”显示在工作台上。在工作台上选中“图片”,点击高级设置,选中网页片段,下载图片。 2. 保存规则。点击存规则按钮 3. 爬数据,点击爬数据按钮 4. 查看图片,一般在计算机本地的DataScraperWorks目录下的PageImgDir目录。 注意,要爬一块区域的所有图片,一般需要滚屏,要在打数机把滚屏打开。 |