用内容映射加定位标志映射抓取淘宝信息,为什么只有每夜前面十二个数据,和九个空值,淘宝网页每夜有48个手机数据的,这是什么问题?

举报 使用道具
| 回复

共 11 个关于本帖的回复 最后回复于 2017-10-25 12:28

沙发
Fuller 管理员 发表于 2017-10-25 10:52:10 | 只看该作者
主题名是什么?
举报 使用道具
板凳
bowieD 金牌会员 发表于 2017-10-25 10:55:03 | 只看该作者
本帖最后由 bowieD 于 2017-10-25 10:59 编辑

把主题名贴出来,不然无法检查规则。没抓全应该是定位标志映射做错了。
举报 使用道具
地板
零零凌凌 初级会员 发表于 2017-10-25 10:59:02 | 只看该作者
淘宝_手机数据抓取
举报 使用道具
5#
零零凌凌 初级会员 发表于 2017-10-25 11:11:28 | 只看该作者
Fuller 发表于 2017-10-25 10:52
主题名是什么?

淘宝_手机数据抓取
举报 使用道具
6#
零零凌凌 初级会员 发表于 2017-10-25 11:11:41 | 只看该作者
bowieD 发表于 2017-10-25 10:55
把主题名贴出来,不然无法检查规则。没抓全应该是定位标志映射做错了。

淘宝_手机数据抓取
举报 使用道具
7#
bowieD 金牌会员 发表于 2017-10-25 11:24:22 | 只看该作者
本帖最后由 bowieD 于 2017-10-25 11:26 编辑

1,从dom窗口可以发现这个网页上面的商品@class值为grid-item col的div节点和下面商品@class值为blank-row col'的div节点不一样,下面@class值为'blank-row col'的div节点一个节点包含了四个商品信息,所以用样例复制和定位映射都会抓取不到下面商品的信息,所以你这么做不行。
可以这么做:
2,取消样例复制,把@class=grid-item col 定位映射给列就可以了,因为@class值为'blank-row col'的div节点下的所有商品信息的@class值都是grid-item col,用这个@class值给列表做定位映射的话就能抓取到所有@class为grid-item col的商品信息。


3,规则做好之后要点击测试看数据是否正确,再进行爬数据。

举报 使用道具
8#
零零凌凌 初级会员 发表于 2017-10-25 11:36:10 | 只看该作者
bowieD 发表于 2017-10-25 11:24
1,从dom窗口可以发现这个网页上面的商品@class值为grid-item col的div节点和下面商品@class值为blank-row  ...

这样的话,@class的值不同,用一个定为标志映射能抓到所有的吗,需要根据不同的class值做不同的几个规则吗?

举报 使用道具
9#
零零凌凌 初级会员 发表于 2017-10-25 11:37:47 | 只看该作者
bowieD 发表于 2017-10-25 11:24
1,从dom窗口可以发现这个网页上面的商品@class值为grid-item col的div节点和下面商品@class值为blank-row  ...

定位标志,打错字了

举报 使用道具
10#
bowieD 金牌会员 发表于 2017-10-25 11:48:44 | 只看该作者
本帖最后由 bowieD 于 2017-10-25 12:03 编辑
零零凌凌 发表于 2017-10-25 11:37
定位标志,打错字了

照着说的方法做就可以了,应该不需要做多个规则,商品都有共同的@class值grid-item col ,只是下面的商品是一个大div节点包含了四个小div节点,小div节点的@class值还是grid-item col ,是一样的,所以只用@class=grid-item col做定位映射就可以了。自己可以测试查看数据是否缺少。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 13:02