整理箱
把想要的网页内容摘取下来,分门别类放在有多个格子的箱子中,这就是整理箱。是不是与像整理家务一样?GooSeeker集搜客软件就是这么好用。 图2:整理箱概念
为了摘取网页内容,必须先创建这个箱子,它本身不用于采集信息,而是作为总的容器,可以用来限制范围或做样例复制的容器;想采集哪些信息,就要在它的下面创建多个抓取内容,通过映射就可以得到爬虫程序,然后用来爬取对应的网页信息。 整理箱的创建和管理都是在“创建规则”工作台上完成的。点击“新建”,然后输入整理箱名称,方框里就会生成整理箱名称的一行,右击它,选择“包容”,就可以在它的下面建立下级抓取内容。如下图,“二手房列表”和“其他”分别是整理箱的名字,第一行就是整理箱容器节点,它的下级就是用来提取信息的抓取内容。 整理箱还可以创建多个。如下图,一个网页的不同模块可以分开放在不同的整理箱,以便能够采集到准确的信息。 图3:多个整理箱 |
oubinke: 那是不是有一种并行操作的意思呢?那同时抓取同一个主题的话,所得到的结果会不会重复呢
bowieD: 每一个规则都可以用一个集搜窗口来运行采集,“与原来的管理窗口同时抓取网页数据”的意思是 是集搜窗口与管理窗口同时抓取同一个主题的网页数据。 ...
oubinke: “点击主题的“集搜”按钮后,弹出“抓取网页”会话窗口,设置抓取线索数量并确定后,将会自动弹出新的简化版DS打数机窗口(集搜窗口),与原来的管理窗口同时抓 ...
a12345617: 什么工具,一点都不会。完全不知道要干什么
waq0902: 单搜和集搜的设置线索数是什么意思?什么情况下线索不是1?