本帖最后由 flyeers 于 2016-7-27 17:22 编辑

如图页面,除了要抓取公司全名、网站等信息,下边的“旗下产品”也需要抓取,只要一个名字就可以,如腾讯精品课,腾讯大学,请问这部分的规则怎么设置呢

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2016-7-27 21:51

沙发
HJLing 版主 发表于 2016-7-27 17:22:15 | 只看该作者
建立两个整理箱 一个负责抓上面的信息 一个负责抓产品信息 这样采集的数据会在两个表中
可以建立嵌套整理箱来抓取
举报 使用道具
板凳
Fuller 管理员 发表于 2016-7-27 21:51:41 | 只看该作者
HJLing 发表于 2016-7-27 17:22
建立两个整理箱 一个负责抓上面的信息 一个负责抓产品信息 这样采集的数据会在两个表中
可以建立嵌套整理箱 ...

是的,在网页上不同区域的信息,可以考虑用不同的整理箱,这样做出来的规则更有适应性。而且,从语义上说,不同区域的信息的语义相差很大,硬放在一个表格中不合理
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-20 16:35