集搜客GooSeeker网络爬虫

标题: 爬取问题 [打印本页]

作者: muzi123    时间: 2020-8-31 21:14
标题: 爬取问题
有很多个医生团队,每个团队的界面如下图,我要爬取每个团队的名称、帮助患者数、价格、一般等待时长和每一个成员的姓名和职称。但是不同团队的人数是不一样的,所以不知道要怎么设置爬取规则。如果用样例复制爬取成员信息的话,又没法爬取前面的名称、帮助患者数、价格、一般等待时长这几个指标。


作者: maomao    时间: 2020-8-31 22:42
可以做个局部的样例复制,https://www.gooseeker.com/doc/article-348-1.html这个教程是采集页面上的多个图片的,就是做了嵌套整理箱,并做了局部的样例复制。这个帖子详细讲了怎么做嵌套的整理箱https://www.gooseeker.com/doc/thread-6227-1-1.html

作者: maomao    时间: 2020-8-31 22:44
或者,你把上述页面的链接发出来,我们针对这个页面详细讲一下怎么做局部的样例复制。
作者: Fuller    时间: 2020-8-31 22:45
可以定义成嵌套整理箱,嵌套整理箱可以是比较复杂的结构。比如,针对这个网页,整理箱可能是这样的结构

团队
  |-- 团队名称
  |-- 已帮助患者数
  |-- 等待时长
  |-- 团队成员
          |-- 姓名
          |-- 职称

那么,可以在 团队成员 这个内部容器上做样例复制映射





欢迎光临 集搜客GooSeeker网络爬虫 (http://www.gooseeker.com/doc/) Powered by Discuz! X3.2