|
集搜客网络爬虫的使用教程一般不用“循环”这个词,因为网络爬虫程序自动处理循环过程,不需要你明确定义每个循环过程,尤其是嵌套循环的时候,要层层规划,很麻烦,集搜客网络爬虫能自动定义循环。
一个循环是一系列连续动作,所以,在集搜客用户手册中,叫“连续动作”,你不必定义循环过程,只需告诉软件:你想对哪些网页节点做动作。
要做一系列动作,那说明承受动作的网页节点有多个,形成一个集合。XPath表达式定位到的节点本来就是一个集合,所以,用集搜客网络爬虫的时候,只需定义一个XPath,指明一个节点集合,那么爬虫会自动挨个去点击,所以,不用规划出来一个循环。
如果出现嵌套,那就是把内层的动作做了一遍以后,让外层做一次动作,然后,内层再次归零后又做一遍。这个过程就像家里的电表,低位数字+1,+1往上跳,跳满了就进一位,低位再从0开始往上跳,循环往复。
所以,无论嵌套多少层,只需为每一层把XPath写好,每一层都能定位到一个节点集合。把每一层按照高位->低位的顺序排好,网络爬虫就按进位顺序跳表运行,形成一个嵌套循环
|
|
共 2 个关于本帖的回复 最后回复于 2016-9-28 12:33