自动滚屏
有些网页在打开后,只显示一部分内容,其他内容需要手动滚动鼠标或者拖曳页面滚动条到底部才能查看,自动滚屏就是爬虫自动模拟上述人工操作,自动滚动网页,这与翻页不同。 越来越多的网站采用动态技术,以便提高用户体验。针对这类网站,如果用普通的网页抓取方法,抓下来的内容很多是空的,原因是网页上的内容并不是一次性从服务器上下载下来,而是陆陆续续下载,可能有如下场景: 1、有些是在网页基本内容下载下来后紧接着就下载显示动态内容; 2、有些是在鼠标移动到某个位置(比如,鼠标悬停)才下载和显示内容; 3、有些是鼠标点击以后才下载和显示内容; 4、而有些网页上有很多图,比如,京东商品列表,用户打开网页的时候,只显示用户当前屏幕范围内的图片,当用户滚动屏幕的时候才将下面的图加载和显示出来,通常这种网页很长; 5、有些网站甚至做成一个极长的瀑布流式,比如,美丽说,那么要抓取这样的网页内容,必须自动滚屏。但是要注意,如果一个网页是没有结尾的瀑布流,比如,知乎的问答,就不能使用这里所介绍的自动滚屏。因为这里介绍的自动滚屏是一直要滚到底才能抓取的。那么应该是连续动作中的滚屏,滚几屏就抓一下。另外要注意,如果要启用连续动作的滚屏,就不能打开这里说的自动滚屏。 自动滚屏和连贯抓取通常会联合使用,比如,上述情形3就需要模拟点击。 自动滚屏会花费更多时间,但是会带来一个好处:如果有些网站很慢,为了防止漏抓,用自动滚屏方式故意放慢速度,也是一个应用场景。 有些网站把内容分成多页,需要翻页才能看完所有内容,但是,翻页标志(比如,“下一页”)通常在网页最后,有些网站采用动态技术,如果不滚屏到最后,翻页标志就不会显示,就无法自动翻页#连贯抓取,在这种情形下,也必须打开自动滚屏选项。 打开自动滚屏的方法是:选择DS打数机的“配置”菜单,选择滚屏参数,将滚屏次数设置成大于0的数字,比如,2,就能开始滚屏。请注意,这种设置方法是对手工启动的“单搜” 和“集搜”有效的,对于爬虫群模式,需要在会员中心设置调度参数。 |
oubinke: 那是不是有一种并行操作的意思呢?那同时抓取同一个主题的话,所得到的结果会不会重复呢
bowieD: 每一个规则都可以用一个集搜窗口来运行采集,“与原来的管理窗口同时抓取网页数据”的意思是 是集搜窗口与管理窗口同时抓取同一个主题的网页数据。 ...
oubinke: “点击主题的“集搜”按钮后,弹出“抓取网页”会话窗口,设置抓取线索数量并确定后,将会自动弹出新的简化版DS打数机窗口(集搜窗口),与原来的管理窗口同时抓 ...
a12345617: 什么工具,一点都不会。完全不知道要干什么
waq0902: 单搜和集搜的设置线索数是什么意思?什么情况下线索不是1?