关键内容空元素,爬虫整页漏采集,或是整页不采集,

能否设置,关键内容空元素,采集为0值 ,其他字段有元素的继续采集,
20200605关键字段内容空白整页不采集.png
20200605-3关键字段对应下DIV.png
举报 使用道具
| 回复

共 14 个关于本帖的回复 最后回复于 2020-6-5 18:49

goodhanbin 中级会员 发表于 2020-6-5 11:17:15 | 显示全部楼层
关键内容空元素,无DIV节点,见下图,
问题:关键内容有些行有元素,有些行无无素值:空值 ,爬虫直接漏采集或是不采,
20200605Td和DIV节点.gif
举报 使用道具
Fuller 管理员 发表于 2020-6-5 16:12:10 | 显示全部楼层
goodhanbin 发表于 2020-6-5 11:17
关键内容空元素,无DIV节点,见下图,
问题:关键内容有些行有元素,有些行无无素值:空值 ,爬虫直接漏采 ...

没有DIV,但是有TD,一样的方法,用这个TD做内容映射
举报 使用道具
goodhanbin 中级会员 发表于 2020-6-5 17:10:42 | 显示全部楼层
定位使用TD定位的,内容映射,使用:div下一级的,attributes值 ,做内容映射,整页测试时,可以采到10行,正式采集时,只整到9行,另外,有些页只采1行数据 ,有些却可以采到10数据
20200605Td和DIV节点二.gif
举报 使用道具
Fuller 管理员 发表于 2020-6-5 17:16:28 | 显示全部楼层
有内容的,在TD下面还有一个DIV?没有内容的没有吗?

做内容映射的时候,不要使用TD下的div,用TD做内容映射就好了
举报 使用道具
goodhanbin 中级会员 发表于 2020-6-5 17:22:00 | 显示全部楼层
Fuller 发表于 2020-6-5 17:16
有内容的,在TD下面还有一个DIV?没有内容的没有吗?

做内容映射的时候,不要使用TD下的div,用TD做内容映 ...

是的,[size=13.3333px]有内容的,在TD下面还有一个DIV,
[size=13.3333px]没内容的,[size=13.3333px]在TD下面没有DIV,
举报 使用道具
goodhanbin 中级会员 发表于 2020-6-5 17:28:07 | 显示全部楼层
Fuller 发表于 2020-6-5 17:16
有内容的,在TD下面还有一个DIV?没有内容的没有吗?

做内容映射的时候,不要使用TD下的div,用TD做内容映 ...

另外,“[size=13.3333px]做内容映射的时候,不要使用TD下的div,用TD做内容映”
[size=13.3333px]

[size=13.3333px]

[size=13.3333px]这个行不通哈,TD没有对应的内容,只能选TD下的DIV值 ,详见以上动图
20200605Td和DIV节点三.gif
举报 使用道具
Fuller 管理员 发表于 2020-6-5 17:54:37 | 显示全部楼层
采集TD就包含了下面的DIV,节点范围越大,采集到的内容越多
举报 使用道具
goodhanbin 中级会员 发表于 2020-6-5 18:03:32 | 显示全部楼层
Fuller 发表于 2020-6-5 17:54
采集TD就包含了下面的DIV,节点范围越大,采集到的内容越多

采集TD的字段,如果字段内容稍多,就会变成....详见动态,

所以,不得已才选TD下面的DIV值,显示全部的字段
20200605Td和DIV节点四.gif
举报 使用道具
goodhanbin 中级会员 发表于 2020-6-5 18:09:26 | 显示全部楼层
Fuller 发表于 2020-6-5 17:54
采集TD就包含了下面的DIV,节点范围越大,采集到的内容越多

选TD节点,字段采集数据只有部分,变成...  见动图1 20200605Td和DIV节点四.gif

选TD下面节点,字段采集全部,见动图 20200605Td和DIV节点五.gif
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 21:25