我是抓取淘宝后台SKU的数据,然后遇到表格的结构不同,缺少了2个TD,没有ID定位,class都是一样,因为缺少了TD,也是不能绝对定位,不知道怎么抓好,求助:
1、这个是我要抓取后台的SKU表
SKU表.png


2、SKU表的标签
表格代码.png

3、表格缺少了2个TD,数量不一样
QQ截图20160802145119.png

4、缺少了的就是这2个,颜色分类、颜色图片
QQ截图20160802145147.png

5、我想要抓取的数据有:颜色分类、尺码、价格、数量、商家编码,不知道怎么操作了~~~~~~~~~~~~~~~~~
举报 使用道具
| 回复

共 21 个关于本帖的回复 最后回复于 2016-10-6 12:55

Fuller 管理员 发表于 2016-8-2 15:56:04 | 显示全部楼层
这是因为有单元格合并,第一个TR是表头,最全,虽然不抓表头,但是你可以用表头作为第一个样例做内容映射,完成后做样例复制映射,表头是第一个,第一行内容是第二个样例。这样能抓。

class相同的话,要注意避免都抓第一列,具体参看后两篇帖子:http://www.gooseeker.com/doc/thread-707-1-1.html
举报 使用道具
金霏凡 初级会员 发表于 2016-8-2 17:04:18 | 显示全部楼层
Fuller 发表于 2016-8-2 15:56
这是因为有单元格合并,第一个TR是表头,最全,虽然不抓表头,但是你可以用表头作为第一个样例做内容映射, ...

这样子也不行,第一个TR不是表头,而是内容了,表头是另外一个,您看看截图,不知道咋弄
11111111.png
举报 使用道具
Fuller 管理员 发表于 2016-8-2 19:00:10 | 显示全部楼层
金霏凡 发表于 2016-8-2 17:04
这样子也不行,第一个TR不是表头,而是内容了,表头是另外一个,您看看截图,不知道咋弄

...

是的,不能跨到THEAD和TBODY两个标签下,只能都用TBODY下的,那就用TBODY下的第一个TR做内容映射,然后用它做第一个样例,下一个做第二个样例,这样做样例复制映射以后,抓取到的内容不正确吗?
举报 使用道具
金霏凡 初级会员 发表于 2016-8-3 14:17:11 | 显示全部楼层
Fuller 发表于 2016-8-2 19:00
是的,不能跨到THEAD和TBODY两个标签下,只能都用TBODY下的,那就用TBODY下的第一个TR做内容映射,然后用 ...

不正确,抓到的都是乱的。第一个是9个TD,第二个只有7个TD,数量对不上,而且class都是一样,尝试了所有定位了
举报 使用道具
Fuller 管理员 发表于 2016-8-3 18:22:13 | 显示全部楼层
就是每到偶数行,就错位了,因为表格有合并单元格。如果规律是固定的,可以在处理抓取结果的时候,偶数行的相应位置插入两个列。

我们处理过更复杂的情况,我做的规则会把colspan这个属性抓下来,就知道哪个单元格做了合并,合并了多少个,到处理结果文件的时候进行特殊处理。

抓取的话,不好避免这个问题
举报 使用道具
金霏凡 初级会员 发表于 2016-8-3 20:51:40 | 显示全部楼层
Fuller 发表于 2016-8-3 18:22
就是每到偶数行,就错位了,因为表格有合并单元格。如果规律是固定的,可以在处理抓取结果的时候,偶数行的 ...

规则不固定的,colspan这个属性怎么抓取,尝试了抓取所有属性还是不行,最后处理还是不会,只会显示一个属性,这个可以用XPATH定位吗,可以的话我去学
举报 使用道具
Fuller 管理员 发表于 2016-8-3 21:38:16 | 显示全部楼层
金霏凡 发表于 2016-8-3 20:51
规则不固定的,colspan这个属性怎么抓取,尝试了抓取所有属性还是不行,最后处理还是不会,只会显示一个 ...

colspan能够用xpath定位到,但是在MS谋数台的DOM树窗口中不显示,必须xpath这样写
  1. //td[position()=1]/@colspan
复制代码

就能把第一号的td下的colspan抓取下来
举报 使用道具
金霏凡 初级会员 发表于 2016-8-4 10:42:11 | 显示全部楼层
Fuller 发表于 2016-8-3 21:38
colspan能够用xpath定位到,但是在MS谋数台的DOM树窗口中不显示,必须xpath这样写
就能把第一号的td下的c ...

看不懂哈,我还是找点时间先学习一下,多谢你哈
举报 使用道具
Fuller 管理员 发表于 2016-8-4 11:28:44 | 显示全部楼层
金霏凡 发表于 2016-8-4 10:42
看不懂哈,我还是找点时间先学习一下,多谢你哈

这种处理难度很大,好多表格由合并单元格,而且没有规律的,都要专门处理。编程很繁琐
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-28 23:39