如图,爬取规则分了几级,结果在excel中显示在了五行。数据量太大不能手动整理,怎样修改规则才能让同一图书的所有信息都显示在一行呢?
当当1.png 当当2.png
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2019-4-25 10:09

Fuller 管理员 发表于 2019-4-25 08:11:42 | 显示全部楼层
如果定义的规则,一层层嵌套的整理箱,就是会出现多行,因为每增加一层,那么这一层跟上一层就不是一个层面的,就多一行。

那么,首先要考虑:是否真的需要建成多层整理箱?也就是是否需要用包含关系建立抓取内容?

如果确实属于不同类型的信息,比如,你的整理箱中的 “图书信息”“图书介绍”,在网页上也许是两块不同的内容。这种情况下,你可以用另建一个整理箱分别存。在一个规则中可以建立很多整理箱。这样的话,导出的数据是多个excel表的,但是他们很容易关联在一起,因为他们的fullpath字段相同
举报 使用道具
东皇田馥 初级会员 发表于 2019-4-25 10:09:39 | 显示全部楼层
非常感谢!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-16 17:16