-
- 【第38期】自动输入关键词采集知乎数据
-
连续动作可以模拟输入、点击、悬浮、选择、双击等鼠标动作,如果采集的网页是需要通过一系列鼠标动作,才能加载出目标数据,那么就要用到连续动作,通常这类网页是没有独立网址的,如果有独立网址的话,直接设置层级 ...
2016-11-30 11:30
-
- 【第37期】连续点击淘宝商品采集价格数据
-
京东、天猫的同一个商品的不同颜色/尺寸都有独立的网址,但是淘宝商品就不是了,淘宝同一个商品通常有多种款式的组合,不同组合的价格会有差别,但都是同一个网址,如果要把这些组合、价格等数据采集下来,就要用到 ...
2016-11-21 17:20
-
- 【第36期】连续动作快速入门
-
连续动作通常是用来采集没有独立网址的网页,即需要模拟鼠标的操作(点击、悬浮、选择、输入、双击、滚屏等),才能浏览到目标数据,这种情况我们才会用连续动作。而对于具有独立网址的下级网页,就不要用连续动作了 ...
2016-11-3 17:05
-
- 【第35期】知网精确采集2
-
连续动作是在网页上做连续操作,当网页需要鼠标点击、悬浮、输入或者是选择下拉菜单等交互动作才会加载出想要的数据,这时就要用到连续动作。大家可以把集搜客爬虫想象成一个机器人,对它预先设置好相应的动作指令, ...
2016-11-1 14:51
-
- 【第34期】知网精确采集1
-
知网是一个很典型的网站,搜索关键词是没有独立网址的,所以,如果要采集某个关键词搜索到的文献资料,就不能直接套用层级采集的方法,针对这类网站,集搜客爬虫通过连续动作就能解决,可以使爬虫智能模拟人与网页的 ...
2016-10-27 11:50
-
- 【第33期】精确采集用定位标志
-
定位标志有两个用途,第一个是限定采集范围,提高定位精确度和规则适应性;第二个就是类似样例复制的作用,可以采集列表数据。当然,定位标志使用的前提都是选取具有属性值(id或class)的节点,如果没有属性值,那 ...
2016-10-18 17:49
-
- 【第32期】美团网店铺信息采集
-
以美团网为例,采集分类目录下都列表信息和每个店铺的链接,再根据店铺链接进入店铺详情页面,批量采集店铺的信息。具体就是,对第一级的分类目录页做直观标注、样例复制、抓店铺链接并对它勾选下级线索、设置翻页, ...
2016-9-30 10:45
-
- 【第31期】图片采集
-
集搜客爬虫不仅能采集网页文本数据、列表、链接,还可以下载图片。下面以采集微博图片为例,给大家讲解一下如何实现采集数据并下载图片。点击观看培训视频 若有疑问可以或 ... ...
2016-9-23 18:17
-
- 【第30期】翻页采集集锦
-
由于网页多种多样,不同网页的翻页也不是千篇一律的,不少用户在做翻页采集时,都会遇到点问题,集搜客有对各种翻页问题进行梳理归纳,大家可以对照翻页集锦解决同类问题。本次培训就针对比较典型的四种情况进行讲解 ...
2016-9-8 17:56
-
- 爬虫管理——规则罗盘
-
爬虫群多线程并发,是非常高效的采集模式,但不少人不知道怎么看各个规则的采集情况,规则罗盘就是用来跟踪爬虫群所调用规则的采集状态,它能让您轻松掌握整个爬虫群的采集动态1、功能入口登录集搜客的会员中心,逐 ...
2016-9-7 17:08
-
- 【第29期】微博博主主页采集
-
微博是国内公开可浏览的最大社群,积累了大量的用户言论,很多人想通过微博这个评论来研究社会热点、监测舆情、做语义分析等等。但前提都是要获取到一定量的微博数据,集搜客作为一款高效的网页抓取工具,本次提供了 ...
2016-9-5 17:30
-
- 【第28期】淘宝天猫评论采集
-
电商购物网站蕴含着不少的消费者特征信息,其中评论就是消费者意见的最直接表现,所以采集评论就变得很常见了。很多购物网站都有反爬虫限制,限制100页显示就是其中一个,那么如何能采集到更多的数据,答案就是分类 ...
2016-8-25 17:38
-
- 集搜客爬虫浏览器for Mac安装方法
-
1,引言集搜客GooSeeker网络爬虫有两种发布方式:作为火狐浏览器插件(只与Firefox 38.x企业版配套)独立安装和运行的GS爬虫浏览器两种发布方式都承载了MS谋数台和DS打数机GUI界面,但是,GS网络爬虫浏览器却有另外 ...
2016-8-22 10:43
-
- 集搜客网络爬虫软件Mac osx版安装方法
-
1,软件下载集搜客GooSeeker网络爬虫软件V7.0.1开始,将同步发布苹果Mac OSX配套的版本。软件有两种版本:作为火狐浏览器扩展(俗称插件)发布的XPI程序GS爬虫浏览器软件:独立安装和运行注意:插件版只支持火狐企业 ...
2016-8-16 15:59
-
- 【第26期】连续动作设置微博高级搜索
-
很多人在采集微博数据,微博本身有一套反爬虫机制,采集变得越来越困难,但是,连续动作可以模拟人与浏览器的交互动作,支持点击、输入、选择、悬浮、滚屏、提交等动作,让您能够攻克壁垒重重的网页,采集到更多网页 ...
2016-8-11 12:09