为什么翻页抓取都是按照别的教程来的 要么就是翻不了页 要么就是一直重复同一页面无限抓取 是不是我映射的节点不对啊 求大佬来一个详细的手把手的傻瓜式教程 挺急的  
https://www.etsy.com/shop/OrganicIngredients?ref=simple-shop-header-name&listing_id=681343769&page=2#items

a5a44e2e408d1ba2ccf6e9c51deb88d.png (143.22 KB, 下载次数: 471)

a5a44e2e408d1ba2ccf6e9c51deb88d.png

712f947ee3289c670b589ed90a7b1bb.png (136.27 KB, 下载次数: 455)

712f947ee3289c670b589ed90a7b1bb.png
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2020-4-3 10:06

沙发
微舆情 高级会员 发表于 2020-4-3 09:28:53 | 只看该作者
你提供的这条网址我这里加载不出来
不过,我看网址里有页码page=2
你可以在excel里构造好每页的网址,这样就不用在规则里翻页了
举报 使用道具
板凳
maomao 论坛元老 发表于 2020-4-3 09:38:09 | 只看该作者
因为要抓网页中间一部分的内容,所以最好先给这块内容做一个整体定位,告诉爬虫到网页的这块区域来抓取数据。所以要做个两层整理箱,最外边的整理箱给整块内容做定位。里面的整理箱来做样例复制。

举报 使用道具
地板
maomao 论坛元老 发表于 2020-4-3 09:39:33 | 只看该作者




举报 使用道具
5#
Zekkkkk 新手上路 发表于 2020-4-3 09:41:39 | 只看该作者
微舆情 发表于 2020-4-3 09:28
你提供的这条网址我这里加载不出来
不过,我看网址里有页码page=2
你可以在excel里构造好每页的网址,这样 ...

他是产品的page  下面的Reviews没有单独的页面

e483aa1d52134adf5a19794c68e96bc.png (303.62 KB, 下载次数: 486)

e483aa1d52134adf5a19794c68e96bc.png

241ae508fcba613fedf56f8c6f1d4ff.png (126.45 KB, 下载次数: 447)

241ae508fcba613fedf56f8c6f1d4ff.png
举报 使用道具
6#
maomao 论坛元老 发表于 2020-4-3 09:43:32 | 只看该作者
本帖最后由 maomao 于 2020-4-3 09:44 编辑

按下面的图片来。顺序从下往上

i8.png (67.42 KB, 下载次数: 482)

1

1

i7.png (170.55 KB, 下载次数: 476)

2

2

i6.png (42.28 KB, 下载次数: 450)

4

4

i5.png (44.67 KB, 下载次数: 473)

5

5

i4.png (99.99 KB, 下载次数: 494)

6

6

i3.png (59.62 KB, 下载次数: 473)

7

7

i2.png (52.5 KB, 下载次数: 467)

8

8
举报 使用道具
7#
Zekkkkk 新手上路 发表于 2020-4-3 10:06:24 | 只看该作者
maomao 发表于 2020-4-3 09:43
按下面的图片来。顺序从下往上

嗯呐! 麻烦您啦,非常感谢!! 已解决
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-24 02:20