因为每层的数量也都不一样试了好多次都没抓明,求大佬傻瓜式教学:https://www.amazon.com/Best-Sellers/zgbs/ref=zg_bs_unv_petsupplies_0_2975241011_2
只抓出所有的分类以及链接就行
在深层一点的就是先抓去每个分类和分类的URL然后分类里面的所有产品

9dc42b4cf52b3bd7e6dd319899e93dd.png (860.84 KB, 下载次数: 634)

9dc42b4cf52b3bd7e6dd319899e93dd.png

6ba9b17af0a6f902ce3adae97a460f4.png (736.59 KB, 下载次数: 643)

6ba9b17af0a6f902ce3adae97a460f4.png

7d1a256995b686aa053e3af48234c13.png (263.34 KB, 下载次数: 657)

7d1a256995b686aa053e3af48234c13.png
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2020-5-17 12:17

沙发
maomao 论坛元老 发表于 2020-5-17 11:09:11 | 只看该作者
按你上面的截图,实际上是个四层的层级抓取,对于前两级,网页左侧的分类框就是列表,要抓取每一项的链接,对应于下面两个截图。第三级对应于最上面的截图,要抓网页上每个商品的链接。第四级就是到每个商品的页面去抓详情。(如果不抓商品详情,不需要第四级)
举报 使用道具
板凳
Fuller 管理员 发表于 2020-5-17 11:16:54 | 只看该作者
把你做的规则名发出来,管理员可以帮你诊断一下。发出来第一级的规则名就行
举报 使用道具
地板
Charless 中级会员 发表于 2020-5-17 11:19:16 | 只看该作者
maomao 发表于 2020-5-17 11:09
按你上面的截图,实际上是个四层的层级抓取,对于前两级,网页左侧的分类框就是列表,要抓取每一项的链接, ...

我现在先不抓商品详情 先抓列表的话有些子分类可能有五六层
举报 使用道具
5#
Charless 中级会员 发表于 2020-5-17 11:21:02 | 只看该作者
Fuller 发表于 2020-5-17 11:16
把你做的规则名发出来,管理员可以帮你诊断一下。发出来第一级的规则名就行 ...

自己没设置明白规则 我试了好几次都没搞明白,抓出来的都不是那么回事  看的别的教学也都不一样就没看懂,比如: https://www.gooseeker.com/doc/article-343-1.html
举报 使用道具
6#
Charless 中级会员 发表于 2020-5-17 11:32:20 | 只看该作者
Fuller 发表于 2020-5-17 11:16
把你做的规则名发出来,管理员可以帮你诊断一下。发出来第一级的规则名就行 ...

第一规则我就映射了一个分类然后映射了这个分类URL
举报 使用道具
7#
maomao 论坛元老 发表于 2020-5-17 11:53:25 | 只看该作者
Charless 发表于 2020-5-17 11:32
第一规则我就映射了一个分类然后映射了这个分类URL

如果,你最后只是为了抓商品的链接,不用分那么细,直接在第一级网页上抓商品链接,可能会有很多页,设置翻页抓取。
举报 使用道具
8#
Charless 中级会员 发表于 2020-5-17 12:17:16 | 只看该作者
maomao 发表于 2020-5-17 11:53
如果,你最后只是为了抓商品的链接,不用分那么细,直接在第一级网页上抓商品链接,可能会有很多页,设置 ...

嗯嗯 单个分类里面的商品内容我都能抓出来  现在就是这个列表和所有的子分类的链接抓不出来
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-23 16:52