集搜客GooSeeker专有名词解释

2015-8-5 16:06| 发布者: ym| 查看: 212310| 评论: 12

摘要: 样本页面 指用户定义抓取规则的网页页面。样本页面的内容结构具有代表性,在一个样本页面上定义的抓取规则可以适用于相同结构的所有页面,比如,针对京东网的一个商品页面定义一个抓取规则,就能用于抓取所有相同结 ...
冻结页面

指保持网页结构不变。有些网站在加载网页内容之后,还会与服务器实时通信,获得新数据,这样不仅会改变网页内容,还会改变网页结构。为了保持页面内容、结构不变,需要勾选冻结页面,在定义抓取规则期间,网页结构必须保持不变。

一些动态内容网站在页面完全加载之后,还会持续运行Javascript程序,可能会持续不断地改变网页内容,比如,新浪微博上显示的微博消息发布时间就会不断变化。在这种情形下用MS谋数台定义网页抓取规则,会有以下问题:

  • 抓取到的内容可能不是您想要的
  • 在定义抓取规则的时候,严重的话会造成MS谋数台崩溃,甚至整个火狐窗口退出。

为避免上述问题,或者在遇到上述问题后,可采用冻结页面措施,即以下步骤:

  1. 加载样本页面并且看到要抓取的内容已经显示出来以后,先勾选冻结页面,实际上就是禁止Javascript运行,
  2. 然后点击“刷新网页结构”菜单,用这个最新的网页结构作为定义抓取规则的基础。

由于Javascript已经被禁止了,网页结构不再改变,定义抓取规则操作就不会造成崩溃。

MS谋数台从V5版本开始,提供了快捷键冻结页面功能,应用场景是这样的:鼠标悬停在网页某个位置,会用浮窗的方式显示弹出内容,鼠标移走 了,这块内容就消失了,如果想为这样的内容定义抓取规则,显然是不能移走鼠标的,也就是说,此时鼠标不能用来点击菜单,那么就需要使用快捷键 alt + F,就能打开“文件”菜单,然后按H键或者向下箭头键,选择“冻结页面”菜单,一旦冻结了页面,鼠标就可以移走了,就能用鼠标完成普通的抓取规则定义操 作。

网络爬虫DS打数机 运行过程是否会受Javascript影响?答案是不会影响,因为网络爬虫是对网页内容做快照,瞬间快照,没有时间跨度,就感觉不到网页结构变化。


若有疑问可以集搜客网络爬虫

34

鲜花
1

握手

雷人
5

路过
3

鸡蛋

刚表态过的朋友 (43 人)

相关阅读

发表评论

最新评论

评论 Fuller 2018-3-17 09:34
oubinke: 那是不是有一种并行操作的意思呢?那同时抓取同一个主题的话,所得到的结果会不会重复呢
用爬虫群模式,设置好调度参数,规定要分布到多少个爬虫窗口中运行,就能并行抓取。这种用于很多网址的情况,如果只有一个网址,开再多爬虫也没有用
评论 oubinke 2018-3-16 19:32
bowieD: AJAX网页是动态加载的,打开一个网页往下拉,如果一直在加载新的内容就是动态加载的网页
好的,谢谢您
评论 oubinke 2018-3-16 19:32
bowieD: 每一个规则都可以用一个集搜窗口来运行采集,“与原来的管理窗口同时抓取网页数据”的意思是 是集搜窗口与管理窗口同时抓取同一个主题的网页数据。 ...
那是不是有一种并行操作的意思呢?那同时抓取同一个主题的话,所得到的结果会不会重复呢
评论 bowieD 2018-3-16 17:52
oubinke: 您好,请问如何判断一个网页是不是AJAX网页呢
AJAX网页是动态加载的,打开一个网页往下拉,如果一直在加载新的内容就是动态加载的网页
评论 bowieD 2018-3-16 17:51
oubinke: “点击主题的“集搜”按钮后,弹出“抓取网页”会话窗口,设置抓取线索数量并确定后,将会自动弹出新的简化版DS打数机窗口(集搜窗口),与原来的管理窗口同时抓 ...
每一个规则都可以用一个集搜窗口来运行采集,“与原来的管理窗口同时抓取网页数据”的意思是 是集搜窗口与管理窗口同时抓取同一个主题的网页数据。
评论 oubinke 2018-3-16 17:22
“点击主题的“集搜”按钮后,弹出“抓取网页”会话窗口,设置抓取线索数量并确定后,将会自动弹出新的简化版DS打数机窗口(集搜窗口),与原来的管理窗口同时抓取网页数据,能够高效抓取数据;”
您好,您文中所说的“与原来的管理窗口同时抓取网页数据”的意思是,是集搜窗口与管理窗口同时抓取同一个主题的网页数据?还是只是可以同时运行不同的主题而已。
评论 oubinke 2018-3-16 17:07
您好,请问如何判断一个网页是不是AJAX网页呢
评论 Fuller 2017-12-14 11:22
a12345617: 什么工具,一点都不会。完全不知道要干什么
从这个文档开始学:http://www.gooseeker.com/tuto/tutor_article.html?t=2  ,左栏有目录,展开《从入门到精通》,从头开始按照顺序看
评论 a12345617 2017-12-14 11:11
什么工具,一点都不会。完全不知道要干什么
评论 Fuller 2016-8-3 21:36
waq0902: 单搜和集搜的设置线索数是什么意思?什么情况下线索不是1?
手工启动的抓取需要输入线索数,意思是让爬虫只抓指定数量的线索。可以先统计一下,比如,统计出来有50条等待抓取的线索,可以输入50,或者大于50的数字,就会把所有线索抓一遍
评论 waq0902 2016-8-3 20:48
单搜和集搜的设置线索数是什么意思?什么情况下线索不是1?
评论 思秋忆 2015-8-13 11:31
点击导航栏的各个名词,为什么一直停留在目录页呢?能不能改进一下

查看全部评论(12)

GMT+8, 2024-3-29 17:33