我看到教程中提到嵌套整理箱,是不是可以用来采集回复的回复?
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2018-2-11 16:19

沙发
Fuller 管理员 发表于 2018-2-11 16:19:34 | 只看该作者


如上图,回复的回复,在网页上这样的内容形成一个树状的层次结构,一层套着一层,所以,做采集规则的时候,也要定义一个对应的嵌套的整理箱,如下图



红色箭头指向的是“容器节点”,他们都含有子节点,list是外层的大容器,multi是内层的小容器。针对这两层容器,都可以定义样例复制规则,用以抓取多个实例。例如,里面一层的multi容器可以用来存储一个回复下的所有嵌套回复,而list容器用以存储所有第一层回复。

要做样例复制映射,比较麻烦的一点是:要选择第一个和第二个样例做映射,万一含有回复的回复是出现在其他位置,而第一个样例不具有回复的回复,那么就不好做映射了。如果不得不用其他样例做映射,生成了规则以后要手工修改。

但是,还有一种简单的方法,如果网页上有合适的定位标志,就不用样例复制映射,而是用定位标志映射采集多个样例

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-11-22 20:20