规则编号
一个抓取规则除了用主题名作为标识以外,还可以进行编号,是抓取规则的辅助标识方法,也就是说一个主题名下可以有多个抓取规则,分别用于内容结构存 在细微差别的网页。请注意,如果网页的内容结构完全不同,比如,京东网的商品列表和单个商品网页,不应该使用同一个主题名,因为他们的内容具有完全不同的 含义。相反,如果有货的商品网页和缺货的商品网页结构存在细微的差别,但是都是单个商品网页,那么,就适合在相同主题名下定义两个抓取规则,用不同的抓取 规则编号进行区分。 如果存在多个抓取规则,根据规则编号的字母顺序排序,优先尝试排在前面的规则,如果尝试成功在使用当前规则,而且不再向后尝试。 |
oubinke: 那是不是有一种并行操作的意思呢?那同时抓取同一个主题的话,所得到的结果会不会重复呢
bowieD: 每一个规则都可以用一个集搜窗口来运行采集,“与原来的管理窗口同时抓取网页数据”的意思是 是集搜窗口与管理窗口同时抓取同一个主题的网页数据。 ...
oubinke: “点击主题的“集搜”按钮后,弹出“抓取网页”会话窗口,设置抓取线索数量并确定后,将会自动弹出新的简化版DS打数机窗口(集搜窗口),与原来的管理窗口同时抓 ...
a12345617: 什么工具,一点都不会。完全不知道要干什么
waq0902: 单搜和集搜的设置线索数是什么意思?什么情况下线索不是1?