-
- 连续动作原理:无需规定怎样循环,自动执行连续动作
-
主题间关系 我们以《连续点击的应用场景(一)》为例,因为这个例子比较简单,只有一个连续点击:在网页上连续移动鼠标。没有多层次动作《连续点击的相关概念》那么不好理解。 这个案例只有两个主题,也就是两个抓取 ...
2015-10-19 14:50
-
- 连续动作的相关概念
-
GooSeeker相关功能 已经有很多文章介绍集搜客软件,给人的印象是一个典型的网络爬虫,爬虫把当前网页上的内容采集下来,同时把网页上的网址也记录下来。但是,这个爬虫通常不会马上去点这个链接,而是在另外的时间, ...
2015-10-19 10:55
-
- 搜索网页内容的使用方法
-
MS谋数台从V5.2.0开始,增加了一项功能:搜索,就是从HTML源代码或动态加载的内容中搜索文字、节点、属性等进行定位。请注意,与浏览器的查看源代码不同,MS谋数台的搜索除了搜索HTML源代码以外,还能搜索动态加载的 ...
2015-10-14 22:43
-
- 怎样添加新的线索(待抓网址)
-
同类网址可以用一个规则来抓数据,例如,做了一个微博搜索关键词的规则,可以用来抓取各种关键词的微博网址。每个规则在保存后,都只有一个样本网址,如果输入大于1的线索数,抓完这个网址后,就会弹出如下图的提示 ...
2015-10-14 10:00
-
- 集搜客的工作原理
-
一、集搜客组成结构 集搜客是由服务器和客户端两部分组成,MetaCamp服务器是规则存储库,DataStore服务器是待抓网址库,MS谋数台是用来制作网页抓取规则的,DS打数机就是用来采集网页数据的,如图1-1。 图1-1 集搜客 ...
2015-10-13 18:07
-
- 规则怎么查看、修改、另存、删除
-
如何查看做好的规则 做好的规则保存后就被存到服务器中,而不是保存在本地,查看方法如下: 1.到MS谋数台的“搜规则”工作台中,输入主题名搜索,如果忘记主题名,可以输入*就能看到自己所做的规则,或者右击空白处 ...
2015-10-13 10:38
-
- 抓取的数据结果怎么查看
-
如何查看结果文件 DS打数机是以网址为单位抓取数据的,而抓取结果是以网页为单位的,也就是说输入网址数1的话,就只抓一个网址的数据,如果是没有翻页的话就得到一个结果文件,如果抓取规则里有翻页操作,那么在抓这 ...
2015-10-13 10:35
-
- DS打数机如何采集数据
-
集搜客如何爬取数据集搜客是由MS谋数台和DS打数机两部分组成,MS谋数台是用来定义网页抓取规则的,DS打数机就是用来采集网页数据的,如图1,工作原理如下图所示。图1 集搜客的组成DS打数机的启动方法用MS谋数台做好 ...
2015-10-12 18:37
-
- 样例复制——以采集58同城租房信息为例
-
样例复制映射如果要采集网页列表上每一个样例的信息,需要对第一个和第二个样例做样例复制映射,这样,就能自动计算出其它样例的位置。 一、选择样例 图1 样例映射图1步骤分解: 在整理箱中选中“样例”,如果是嵌套 ...
2015-10-12 15:14
-
- 定位标志映射——以采集58同城租房信息为例
-
定位标志映射提高规则适用性 定位标志主要为了提高抓取网页的精度和适应度。在一些研究工作中,需要很精确地抓取需要的数据,例如,抓取帖子评论数、发布时间等等,抓取不准确会干扰分析结果。因为不少网站为了保护 ...
2015-10-12 14:45
-
- 采集标题、网址、价格——以采集58同城租房信息为例
-
下面是定义基本规则的操作步骤,更加详细的可以查看教程集搜客入门——三步掌握集搜客命名主题图1 命名主题图1步骤分解:1.在火狐的工具栏处打开MS谋数台,输入样本网页地址。2.输入主题名。3.检查主题名是否重复。 ...
2015-10-10 17:54
-
- 采集流程——以采集58同城租房信息为例
-
样例复制的作用很多网页是列表结构,例如电商网站、垂直网站的分目录页面以及商品评论等,我们通常要采集目录分页上的商品基本信息和商品网址,通过商品网址导航进入下一级网页,然后采集详细的商品信息或其他目标信 ...
2015-10-10 17:34
-
- 怎样抓取网页的同时下载图片
-
下载图片功能的特点 普通的网络爬虫不会在抓取网页的时候同时下载网页上的图片,而只是把图片地址存下来,然后用其它工具或者在另一个下载过程才去真正下载。集搜客GooSeeker网络爬虫从V5.2.0开始,将图片下载和普通 ...
2015-10-9 10:31
-
- 如何通过crontab程序实现周期性增量采集数据?
-
请注意:GooSeeker网络爬虫软件从V5开始进行了大规模改版,crontab调度文件的参数含义没有变化,只是请注意词汇的变化,罗列如下: MetaSeeker:改称 GooSeeker网络爬虫DataScraper:改称 DS打数机MetaStudio:改称 ...
2015-9-24 16:50
-
- 如何抓取网页片段完整信息——以采集京东商品标题为例
-
在对网页进行抓取时,由于文本内容存放在多个text节点,所以有时会遇到只抓取到目标抓取内容的一部分,例如图1这种情况。图1如图1在浏览器窗口展现的完整信息,在网页结构窗口中实际是分多个text文本节点显示的,为 ...
2015-9-7 11:45