快捷导航
本帖最后由 flyeers 于 2016-7-27 17:22 编辑

如图页面,除了要抓取公司全名、网站等信息,下边的“旗下产品”也需要抓取,只要一个名字就可以,如腾讯精品课,腾讯大学,请问这部分的规则怎么设置呢
QQ截图20160727171503.png
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2016-7-27 21:51

HJLing 版主 发表于 2016-7-27 17:22:15 | 显示全部楼层
建立两个整理箱 一个负责抓上面的信息 一个负责抓产品信息 这样采集的数据会在两个表中
可以建立嵌套整理箱来抓取
举报 使用道具
Fuller 管理员 发表于 2016-7-27 21:51:41 | 显示全部楼层
HJLing 发表于 2016-7-27 17:22
建立两个整理箱 一个负责抓上面的信息 一个负责抓产品信息 这样采集的数据会在两个表中
可以建立嵌套整理箱 ...

是的,在网页上不同区域的信息,可以考虑用不同的整理箱,这样做出来的规则更有适应性。而且,从语义上说,不同区域的信息的语义相差很大,硬放在一个表格中不合理
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 数据管家和集搜客网络爬虫超出配额是怎么回
  • 用GooSeeker数据管家能采集微博内容吗?
  • 怎样使用GooSeeker数据管家启动采集任务?
  • GooSeeker数据管家软件使用指导
  • 如何使用集搜客分词平台做社会网络图分析?

热门用户

GMT+8, 2020-10-29 18:34