冻结页面
指保持网页结构不变。有些网站在加载网页内容之后,还会与服务器实时通信,获得新数据,这样不仅会改变网页内容,还会改变网页结构。为了保持页面内容、结构不变,需要勾选冻结页面,在定义抓取规则期间,网页结构必须保持不变。
图1:冻结页面
一些动态内容网站在页面完全加载之后,还会持续运行Javascript程序,可能会持续不断地改变网页内容,比如,新浪微博上显示的微博消息发布时间就会不断变化。在这种情形下用MS谋数台定义网页抓取规则,会有以下问题:
- 抓取到的内容可能不是您想要的
- 在定义抓取规则的时候,严重的话会造成MS谋数台崩溃,甚至整个火狐窗口退出。
为避免上述问题,或者在遇到上述问题后,可采用冻结页面措施,即以下步骤:
- 加载样本页面并且看到要抓取的内容已经显示出来以后,先勾选冻结页面,实际上就是禁止Javascript运行,
- 然后点击“刷新网页结构”菜单,用这个最新的网页结构作为定义抓取规则的基础。
由于Javascript已经被禁止了,网页结构不再改变,定义抓取规则操作就不会造成崩溃。MS谋数台从V5版本开始,提供了快捷键冻结页面功能,应用场景是这样的:鼠标悬停在网页某个位置,会用浮窗的方式显示弹出内容,鼠标移走了,这块内容就消失了,如果想为这样的内容定义抓取规则,显然是不能移走鼠标的,也就是说,此时鼠标不能用来点击菜单,那么就需要使用快捷键 alt +F,就能打开“文件”菜单,然后按H键或者向下箭头键,选择“冻结页面”菜单,一旦冻结了页面,鼠标就可以移走了,就能用鼠标完成普通的抓取规则定义操作。网络爬虫DS打数机 运行过程是否会受Javascript影响?答案是不会影响,因为网络爬虫是对网页内容做快照,瞬间快照,没有时间跨度,就感觉不到网页结构变化。
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|
|
|
|
共 0 个关于本帖的回复 最后回复于 2017-1-13 17:06