本帖最后由 flyeers 于 2016-7-27 17:22 编辑

如图页面,除了要抓取公司全名、网站等信息,下边的“旗下产品”也需要抓取,只要一个名字就可以,如腾讯精品课,腾讯大学,请问这部分的规则怎么设置呢

QQ截图20160727171503.png (71.36 KB, 下载次数: 500)

QQ截图20160727171503.png
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2016-7-27 21:51

沙发
HJLing 版主 发表于 2016-7-27 17:22:15 | 只看该作者
建立两个整理箱 一个负责抓上面的信息 一个负责抓产品信息 这样采集的数据会在两个表中
可以建立嵌套整理箱来抓取
举报 使用道具
板凳
Fuller 管理员 发表于 2016-7-27 21:51:41 | 只看该作者
HJLing 发表于 2016-7-27 17:22
建立两个整理箱 一个负责抓上面的信息 一个负责抓产品信息 这样采集的数据会在两个表中
可以建立嵌套整理箱 ...

是的,在网页上不同区域的信息,可以考虑用不同的整理箱,这样做出来的规则更有适应性。而且,从语义上说,不同区域的信息的语义相差很大,硬放在一个表格中不合理
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-27 00:25