求助!!!任务名:sohu_car_test2_5
整理箱结构不正确:抓取内容没有包含在内
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2019-8-2 16:08

Fuller 管理员 发表于 2019-8-1 18:30:49 | 显示全部楼层
一定是做了样例复制,那么就要求给抓取内容做映射的时候,在网页上都必须来自于同一个样例的内容。

如果有个抓取内容其实是不属于样例的,那么要放在样例外边。

如果一个整理箱中既需要抓取样例复制的内容,又要抓取零散的内容,那么需要定义一个嵌套的整理箱,具体参看帖子《怎样建立嵌套整理箱
举报 使用道具
kaka_22 初级会员 发表于 2019-8-1 18:52:47 | 显示全部楼层
Fuller 发表于 2019-8-1 18:30
一定是做了样例复制,那么就要求给抓取内容做映射的时候,在网页上都必须来自于同一个样例的内容。

如果有 ...

我爬的网站数据节点是像图里这样的,一个TR节点对应一行,但是每一列是一辆车的全部信息,我也是按列作为一个样例的,是不是这个原因导致的报错?
微信截图_20190801185111.png
举报 使用道具
Fuller 管理员 发表于 2019-8-2 09:24:40 | 显示全部楼层
kaka_22 发表于 2019-8-1 18:52
我爬的网站数据节点是像图里这样的,一个TR节点对应一行,但是每一列是一辆车的全部信息,我也是按列作为 ...

按照列做样例复制没有问题。但是要注意,做规则的时候,只选择第一列的内容做内容映射,不能有几个用第一列的,有几个用第二列的,否则就会出现抓取内容没有包含在内。

另外,如果同时做了内容映射和定位标志映射,两个映射选择的DOM节点应该是父子祖先关系,不能在兄弟分支上。要确定是否是祖先关系,只要从一个节点开始,父节点方向找,一级一级找,只要能找到另一个节点,那就对了,那就是他们在同一支上
举报 使用道具
kaka_22 初级会员 发表于 2019-8-2 10:54:38 | 显示全部楼层
Fuller 发表于 2019-8-2 09:24
按照列做样例复制没有问题。但是要注意,做规则的时候,只选择第一列的内容做内容映射,不能有几个用第一 ...

我看这个节点的样子好像不行
能帮忙看一下确认一下么  感谢!!!网址在这http://db.auto.sohu.com/yiqiaudi/2374/trim.html


举报 使用道具
Fuller 管理员 发表于 2019-8-2 12:09:07 | 显示全部楼层
kaka_22 发表于 2019-8-2 10:54
我看这个节点的样子好像不行
能帮忙看一下确认一下么  感谢!!!网址在这http://db.auto.sohu.com/yiqia ...

表格20190802120433.png

我看到你已经对每一行做了样例复制。我在这个基础上改动了一下。

整理箱最顶层节点叫做“行”,用tr做样例复制,内部建立一个抓取内容,存表头,比如“厂商指导价”,“4S店报价”等等,然后再创建一个内部嵌套的容器节点“列”,里面含有“单元格”内容,用第一个单元格做内容映射,然后对“列”这个容器用第一行的td做样例复制映射。

整个表采集下来是这样的格式

表20190802120839.png
举报 使用道具
Fuller 管理员 发表于 2019-8-2 12:11:46 | 显示全部楼层
汽车20190802121011.png

汽车型号这一条放在另一个table中,这样就比较麻烦,很难把这一条和下面的参数表格合在一起,只能用另一个整理箱采集下来。

在一个规则中可以有多个整理箱。

最后导出数据以后,把两个整理箱在excel中合并一下
举报 使用道具
kaka_22 初级会员 发表于 2019-8-2 15:56:05 | 显示全部楼层
Fuller 发表于 2019-8-2 12:11
汽车型号这一条放在另一个table中,这样就比较麻烦,很难把这一条和下面的参数表格合在一起,只能用另一 ...

我试了一下,这样的话原本1万多行的数据爬下来变成了100多万行~
有办法按列爬取么,就是一列作为一个样例来爬
举报 使用道具
Fuller 管理员 发表于 2019-8-2 16:08:00 | 显示全部楼层
kaka_22 发表于 2019-8-2 15:56
我试了一下,这样的话原本1万多行的数据爬下来变成了100多万行~
有办法按列爬取么,就是一列作为一个样例 ...

主要看网页结构,这个结构没法按列做样例复制
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 14:00