阿里巴巴外包询价网站用集搜客网络爬虫能采集吗?

2020-2-29 15:32| 发布者: Fuller| 查看: 7643| 评论: 2

摘要: 有用户问了下面这个问题:Alibaba sourcing这个网站,在集搜客网络爬虫V9.0.5上显示不出来,以前做的规则就无法加载分析了,用DS打数机也无法爬数据,我曾经尝试修改UserAgent,改成Firefox 45也不行,我还清除过缓 ...

注:从V1.5.x版本开始,下文提及的 集搜客 采摘浏览器 改名为 集搜客 数据管家

有用户问了下面这个问题:

Alibaba sourcing这个网站,在集搜客网络爬虫V9.0.5上显示不出来,以前做的规则就无法加载分析了,用DS打数机也无法爬数据,我曾经尝试修改UserAgent,改成Firefox 45也不行,我还清除过缓存也没有用,看来也不是反爬封锁。是不是集搜客网络爬虫软件就采集不了了?

下面,我们针对用户这个问题,讲解怎样使用GooSeeker新发布的 集搜客采摘浏览器 来采集阿里巴巴外包询价网站。

请注意:本文发布时间2020年2月29日,集搜客采摘浏览器第一次公开发布,版本号是V1.0.7,该软件正在快速迭代中,等您较晚看到这篇文章时,集搜客采摘浏览器的功能可能已经更加强大了。

1,到哪里下载集搜客采摘浏览器

目前,集搜客采摘浏览器 是作为手工摘录软件发布的,而爬虫功能相当于大批量自动摘录,所以也是采摘软件的一部分功能。

2,为什么叫采摘浏览器

集搜客采摘浏览器 ,兼具手工摘录和自动采集功能。但是,目前没有定义规则的功能,所以,一定要同时安装 集搜客爬虫软件V9.0.5及以上 和 集搜客采摘浏览器。下面讲解两个软件怎样配合在一起定义爬虫采集规则。

3,怎样运行采摘浏览器

打开集搜客采摘浏览器,登录账号和集搜客爬虫软件是共用的,所以,正常的话应该自动登录上了,可以看到如下界面

从上图可以看到,左边栏工具条是关键功能的入口,下边栏是状态条,绿色表示登录成功。

4,开始定义规则

在集搜客采摘浏览器中加载样本页面,也就是老版网络爬虫软件无法显示的阿里巴巴外包询价网页,能看到在集搜客采摘浏览器中成功加载了这个网页。手工滚屏到底,等到所有内容都显示出来了,再点击左栏工具条上的 绿色 + 号按钮,如下图。

点击上图所示按钮以后,要等10几秒,MS谋数台运行有点慢,能看到集搜客爬虫软件的MS谋数台调用起来了,而且加载了样本页面,并且自动进入了定义规则状态。

5,在MS谋数台上定义规则

跟定义普通规则一样,大部分情况下,从集搜客采摘浏览器转过来的网页一模一样,少数情况会有显示乱掉的情况,但是,不影响定义采集规则。

如上图,定义完规则,还是使用红色箭头指向的按钮存规则,但是不要用蓝色箭头指向的“爬数据”,因为直接爬数据实际上爬的是一个快照,要转到集搜客采摘浏览器上运行这个爬虫任务。

6,怎么爬数据

回到 集搜客采摘浏览器,点击左边条上的 任务管理按钮,进入任务管理页面,如下图

下面是任务管理页面全貌

如上图,在任务管理面板上,在左边箭头位置,鼠标悬浮出来的菜单有“启动采集”,就是以前的单搜/集搜 ,新版本不分了,想运行几个爬虫窗口都行。右边那两个箭头,可以设置爬虫群和运行爬虫群。

7,观察爬虫状态

在集搜客采摘浏览器上,不再有一条静态显示的DS打数机控制面板了,而是收缩到右下角圆形图标上。鼠标悬浮到这个图标上,可以看爬虫状态,显示的内容就像以前的DS打数机控制面板。

8,设置爬虫参数

如上图,点击左边栏的这个设置按钮。绝大多数参数跟老版本爬虫一样,就是滚屏次数暂时不一样,新版本的滚屏次数多少就是滚多少屏,而老版本是滚屏到底以后的额外滚屏数。未来也会跟老版本保持一致(注:这是暂时状态)。

9,其他功能介绍

从上到下分别是 定义规则,任务管理,数据管理,文本分析,内容摘录,配置,帮助,账号管理

10,已经实现的爬虫功能:

a,内容抓取:包括,普通html和iframe内的内容抓取

b,翻页:暂未支持翻页按钮位于iframe中的功能

c,连续点击:暂未支持iframe中的点击

d,附件下载

11,老版爬虫没有的功能

a,生成html快照

b,拦截和保存ajax消息,包括post和get等各种http消息

c,模拟post从而截获json数据

12,总结

因为还在测试阶段,可能有很多问题,欢迎指出。另外,mac版还没有做发布前的logo标记工作,需要单独跟管理员申请试用。Windows版目前只有64位操作系统的,32位操作系统的支持需联系管理员。上述功能是2020年2月29日看到的,很快随着新版本的发布,网络爬虫功能将会更加全面。


鲜花

握手

雷人

路过

鸡蛋
发表评论

最新评论

评论 Fuller 2020-8-30 11:36
xiaohongseeker1003: 请问要爬取阿里巴巴的数据,为什么网页加载不出来呢?用 的就是集搜客浏览器。
www.alibaba.com 还是1688 ?可以把集搜客浏览器的UserAgent改成Firefox 45试试,在右上角有一个齿轮状的图标,点击进入修改。不行的话就要按照这篇文档说的,用数据管家定义规则和爬数据
评论 xiaohongseeker1003 2020-8-30 11:09
请问要爬取阿里巴巴的数据,为什么网页加载不出来呢?用 的就是集搜客浏览器。

查看全部评论(2)

GMT+8, 2024-12-21 22:39