注:从V1.5.x版本开始,下文提及的 集搜客 采摘浏览器 改名为 集搜客 数据管家 有用户问了下面这个问题: Alibaba sourcing这个网站,在集搜客网络爬虫V9.0.5上显示不出来,以前做的规则就无法加载分析了,用DS打数机也无法爬数据,我曾经尝试修改UserAgent,改成Firefox 45也不行,我还清除过缓存也没有用,看来也不是反爬封锁。是不是集搜客网络爬虫软件就采集不了了? 下面,我们针对用户这个问题,讲解怎样使用GooSeeker新发布的 集搜客采摘浏览器 来采集阿里巴巴外包询价网站。 请注意:本文发布时间2020年2月29日,集搜客采摘浏览器第一次公开发布,版本号是V1.0.7,该软件正在快速迭代中,等您较晚看到这篇文章时,集搜客采摘浏览器的功能可能已经更加强大了。 1,到哪里下载集搜客采摘浏览器 目前,集搜客采摘浏览器 是作为手工摘录软件发布的,而爬虫功能相当于大批量自动摘录,所以也是采摘软件的一部分功能。 2,为什么叫采摘浏览器 集搜客采摘浏览器 ,兼具手工摘录和自动采集功能。但是,目前没有定义规则的功能,所以,一定要同时安装 集搜客爬虫软件V9.0.5及以上 和 集搜客采摘浏览器。下面讲解两个软件怎样配合在一起定义爬虫采集规则。 3,怎样运行采摘浏览器 打开集搜客采摘浏览器,登录账号和集搜客爬虫软件是共用的,所以,正常的话应该自动登录上了,可以看到如下界面 从上图可以看到,左边栏工具条是关键功能的入口,下边栏是状态条,绿色表示登录成功。 4,开始定义规则 在集搜客采摘浏览器中加载样本页面,也就是老版网络爬虫软件无法显示的阿里巴巴外包询价网页,能看到在集搜客采摘浏览器中成功加载了这个网页。手工滚屏到底,等到所有内容都显示出来了,再点击左栏工具条上的 绿色 + 号按钮,如下图。 点击上图所示按钮以后,要等10几秒,MS谋数台运行有点慢,能看到集搜客爬虫软件的MS谋数台调用起来了,而且加载了样本页面,并且自动进入了定义规则状态。 5,在MS谋数台上定义规则 跟定义普通规则一样,大部分情况下,从集搜客采摘浏览器转过来的网页一模一样,少数情况会有显示乱掉的情况,但是,不影响定义采集规则。 如上图,定义完规则,还是使用红色箭头指向的按钮存规则,但是不要用蓝色箭头指向的“爬数据”,因为直接爬数据实际上爬的是一个快照,要转到集搜客采摘浏览器上运行这个爬虫任务。 6,怎么爬数据 回到 集搜客采摘浏览器,点击左边条上的 任务管理按钮,进入任务管理页面,如下图 下面是任务管理页面全貌 如上图,在任务管理面板上,在左边箭头位置,鼠标悬浮出来的菜单有“启动采集”,就是以前的单搜/集搜 ,新版本不分了,想运行几个爬虫窗口都行。右边那两个箭头,可以设置爬虫群和运行爬虫群。 7,观察爬虫状态 在集搜客采摘浏览器上,不再有一条静态显示的DS打数机控制面板了,而是收缩到右下角圆形图标上。鼠标悬浮到这个图标上,可以看爬虫状态,显示的内容就像以前的DS打数机控制面板。 8,设置爬虫参数 如上图,点击左边栏的这个设置按钮。绝大多数参数跟老版本爬虫一样,就是滚屏次数暂时不一样,新版本的滚屏次数多少就是滚多少屏,而老版本是滚屏到底以后的额外滚屏数。未来也会跟老版本保持一致(注:这是暂时状态)。 9,其他功能介绍 从上到下分别是 定义规则,任务管理,数据管理,文本分析,内容摘录,配置,帮助,账号管理 10,已经实现的爬虫功能: a,内容抓取:包括,普通html和iframe内的内容抓取 b,翻页:暂未支持翻页按钮位于iframe中的功能 c,连续点击:暂未支持iframe中的点击 d,附件下载 11,老版爬虫没有的功能 a,生成html快照 b,拦截和保存ajax消息,包括post和get等各种http消息 c,模拟post从而截获json数据 12,总结 因为还在测试阶段,可能有很多问题,欢迎指出。另外,mac版还没有做发布前的logo标记工作,需要单独跟管理员申请试用。Windows版目前只有64位操作系统的,32位操作系统的支持需联系管理员。上述功能是2020年2月29日看到的,很快随着新版本的发布,网络爬虫功能将会更加全面。 |