我看到教程中提到嵌套整理箱,是不是可以用来采集回复的回复?
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2018-2-11 16:19

Fuller 管理员 发表于 2018-2-11 16:19:34 | 显示全部楼层
回复的回复20180211143448.png

如上图,回复的回复,在网页上这样的内容形成一个树状的层次结构,一层套着一层,所以,做采集规则的时候,也要定义一个对应的嵌套的整理箱,如下图

双层20180211143950.png

红色箭头指向的是“容器节点”,他们都含有子节点,list是外层的大容器,multi是内层的小容器。针对这两层容器,都可以定义样例复制规则,用以抓取多个实例。例如,里面一层的multi容器可以用来存储一个回复下的所有嵌套回复,而list容器用以存储所有第一层回复。

要做样例复制映射,比较麻烦的一点是:要选择第一个和第二个样例做映射,万一含有回复的回复是出现在其他位置,而第一个样例不具有回复的回复,那么就不好做映射了。如果不得不用其他样例做映射,生成了规则以后要手工修改。

但是,还有一种简单的方法,如果网页上有合适的定位标志,就不用样例复制映射,而是用定位标志映射采集多个样例
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 18:49