快捷导航
我看到教程中提到嵌套整理箱,是不是可以用来采集回复的回复?
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2018-2-11 16:19

Fuller 管理员 发表于 2018-2-11 16:19:34 | 显示全部楼层
回复的回复20180211143448.png

如上图,回复的回复,在网页上这样的内容形成一个树状的层次结构,一层套着一层,所以,做采集规则的时候,也要定义一个对应的嵌套的整理箱,如下图

双层20180211143950.png

红色箭头指向的是“容器节点”,他们都含有子节点,list是外层的大容器,multi是内层的小容器。针对这两层容器,都可以定义样例复制规则,用以抓取多个实例。例如,里面一层的multi容器可以用来存储一个回复下的所有嵌套回复,而list容器用以存储所有第一层回复。

要做样例复制映射,比较麻烦的一点是:要选择第一个和第二个样例做映射,万一含有回复的回复是出现在其他位置,而第一个样例不具有回复的回复,那么就不好做映射了。如果不得不用其他样例做映射,生成了规则以后要手工修改。

但是,还有一种简单的方法,如果网页上有合适的定位标志,就不用样例复制映射,而是用定位标志映射采集多个样例
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 大型百货商场会员画像描绘
  • 自动导入导出数据
  • 批量爬取蘑菇街商品价格、评论信息
  • 微博用户数据分析
  • 批量爬取苏宁商品价格、评论信息

热门用户

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2018-10-17 02:17