快捷导航
我看到教程中提到嵌套整理箱,是不是可以用来采集回复的回复?
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2018-2-11 16:19

Fuller 管理员 发表于 2018-2-11 16:19:34 | 显示全部楼层
回复的回复20180211143448.png

如上图,回复的回复,在网页上这样的内容形成一个树状的层次结构,一层套着一层,所以,做采集规则的时候,也要定义一个对应的嵌套的整理箱,如下图

双层20180211143950.png

红色箭头指向的是“容器节点”,他们都含有子节点,list是外层的大容器,multi是内层的小容器。针对这两层容器,都可以定义样例复制规则,用以抓取多个实例。例如,里面一层的multi容器可以用来存储一个回复下的所有嵌套回复,而list容器用以存储所有第一层回复。

要做样例复制映射,比较麻烦的一点是:要选择第一个和第二个样例做映射,万一含有回复的回复是出现在其他位置,而第一个样例不具有回复的回复,那么就不好做映射了。如果不得不用其他样例做映射,生成了规则以后要手工修改。

但是,还有一种简单的方法,如果网页上有合适的定位标志,就不用样例复制映射,而是用定位标志映射采集多个样例
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 空间密度分析不只ArcGIS还有Excel
  • 用GooSeeker爬虫实现自动点击抓取淘宝sku库
  • 挖掘淘宝爆款商品名称中的关键词
  • 怎样抓取京东和淘宝sku对应的库存?
  • 快速建立手机用户评论特征词库-GooSeeker分

热门用户

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2018-5-28 01:52