文档 - 第3页 - 集搜客GooSeeker网络爬虫

连续动作可以模拟输入、点击、悬浮、选择、双击等鼠标动作，如果采集的网页是需要通过一系列鼠标动作，才能加载出目标数据，那么就要用到连续动作，通常这类网页是没有独立网址的，如果有独立网址的话，直接设置层级 ...

2016-11-30 11:30

京东、天猫的同一个商品的不同颜色/尺寸都有独立的网址，但是淘宝商品就不是了，淘宝同一个商品通常有多种款式的组合，不同组合的价格会有差别，但都是同一个网址，如果要把这些组合、价格等数据采集下来，就要用到 ...

2016-11-21 17:20

连续动作通常是用来采集没有独立网址的网页，即需要模拟鼠标的操作（点击、悬浮、选择、输入、双击、滚屏等），才能浏览到目标数据，这种情况我们才会用连续动作。而对于具有独立网址的下级网页，就不要用连续动作了 ...

2016-11-3 17:05

连续动作是在网页上做连续操作，当网页需要鼠标点击、悬浮、输入或者是选择下拉菜单等交互动作才会加载出想要的数据，这时就要用到连续动作。大家可以把集搜客爬虫想象成一个机器人，对它预先设置好相应的动作指令， ...

2016-11-1 14:51

知网是一个很典型的网站，搜索关键词是没有独立网址的，所以，如果要采集某个关键词搜索到的文献资料，就不能直接套用层级采集的方法，针对这类网站，集搜客爬虫通过连续动作就能解决，可以使爬虫智能模拟人与网页的 ...

2016-10-27 11:50

定位标志有两个用途，第一个是限定采集范围，提高定位精确度和规则适应性；第二个就是类似样例复制的作用，可以采集列表数据。当然，定位标志使用的前提都是选取具有属性值（id或class）的节点，如果没有属性值，那 ...

2016-10-18 17:49

以美团网为例，采集分类目录下都列表信息和每个店铺的链接，再根据店铺链接进入店铺详情页面，批量采集店铺的信息。具体就是，对第一级的分类目录页做直观标注、样例复制、抓店铺链接并对它勾选下级线索、设置翻页， ...

2016-9-30 10:45

集搜客爬虫不仅能采集网页文本数据、列表、链接，还可以下载图片。下面以采集微博图片为例，给大家讲解一下如何实现采集数据并下载图片。点击观看培训视频若有疑问可以或 ... ...

2016-9-23 18:17

由于网页多种多样，不同网页的翻页也不是千篇一律的，不少用户在做翻页采集时，都会遇到点问题，集搜客有对各种翻页问题进行梳理归纳，大家可以对照翻页集锦解决同类问题。本次培训就针对比较典型的四种情况进行讲解 ...

2016-9-8 17:56

爬虫群多线程并发，是非常高效的采集模式，但不少人不知道怎么看各个规则的采集情况，规则罗盘就是用来跟踪爬虫群所调用规则的采集状态，它能让您轻松掌握整个爬虫群的采集动态1、功能入口登录集搜客的会员中心，逐 ...

2016-9-7 17:08

微博是国内公开可浏览的最大社群，积累了大量的用户言论，很多人想通过微博这个评论来研究社会热点、监测舆情、做语义分析等等。但前提都是要获取到一定量的微博数据，集搜客作为一款高效的网页抓取工具，本次提供了 ...

2016-9-5 17:30

电商购物网站蕴含着不少的消费者特征信息，其中评论就是消费者意见的最直接表现，所以采集评论就变得很常见了。很多购物网站都有反爬虫限制，限制100页显示就是其中一个，那么如何能采集到更多的数据，答案就是分类 ...

2016-8-25 17:38

1，引言集搜客GooSeeker网络爬虫有两种发布方式：作为火狐浏览器插件（只与Firefox 38.x企业版配套）独立安装和运行的GS爬虫浏览器两种发布方式都承载了MS谋数台和DS打数机GUI界面，但是，GS网络爬虫浏览器却有另外 ...

2016-8-22 10:43

1，软件下载集搜客GooSeeker网络爬虫软件V7.0.1开始，将同步发布苹果Mac OSX配套的版本。软件有两种版本：作为火狐浏览器扩展（俗称插件）发布的XPI程序GS爬虫浏览器软件：独立安装和运行注意：插件版只支持火狐企业 ...

2016-8-16 15:59

很多人在采集微博数据，微博本身有一套反爬虫机制，采集变得越来越困难，但是，连续动作可以模拟人与浏览器的交互动作，支持点击、输入、选择、悬浮、滚屏、提交等动作，让您能够攻克壁垒重重的网页，采集到更多网页 ...

2016-8-11 12:09

文档