快捷导航
用小红书电脑上的网址去采集数据,就是页面最多显示的20条(查看更多就是要下载app去app端看),所以就导致了用小红书电脑网址去爬数据很有限就这20条,  那么问题来了,爬取小红书app的数据怎么爬?  用抓包软件抓取网址吗还是说其他的办法???请大神指导

举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2020-5-22 17:25

tsj4657396 初级会员 发表于 2019-7-24 17:53:02 | 显示全部楼层
举报 使用道具
Fuller 管理员 发表于 2019-7-24 18:21:58 | 显示全部楼层

如果想爬很多,其实也有办法的,你看我发的这个文件:https://www.gooseeker.com/doc/article-480-1.html

文章中有个图,在小红书笔记详情页,可以看到更多类似笔记,这样就可以扩大爬虫范围。

但是,我在那篇文章中共享的几个规则修改了,因为有用户不喜欢这样扩展范围,爬虫会很久很久跑不完,范围越扩展越大。你可以按照这个思路自己定义一下规则。

另外,小红书经常改版,逐渐地隐藏了很多链接,这种扩大返回的爬取方式会越来越受限制了
举报 使用道具
tsj4657396 初级会员 发表于 2019-7-25 09:33:59 | 显示全部楼层
Fuller 发表于 2019-7-24 18:21
如果想爬很多,其实也有办法的,你看我发的这个文件:https://www.gooseeker.com/doc/article-480-1.html ...

好的,谢谢,我去试试
举报 使用道具
Teeker 新手上路 发表于 2020-5-20 22:20:24 | 显示全部楼层
Fuller 发表于 2019-7-24 18:21
如果想爬很多,其实也有办法的,你看我发的这个文件:https://www.gooseeker.com/doc/article-480-1.html ...

你好,我下载了你的四条小红书的规则,现在第一条规则线索数据爬取不了,这样一来后面第三条规则就只能一个网页一个网页的加,是因为小红书的网站首页改了吗?

举报 使用道具
wangyong 版主 发表于 2020-5-21 08:56:03 | 显示全部楼层
Teeker 发表于 2020-5-20 22:20
你好,我下载了你的四条小红书的规则,现在第一条规则线索数据爬取不了,这样一来后面第三条规则就只能一 ...

你要爬什么板块?除了现在首页和社区精选现在网址相同了,其他版本没有变化
举报 使用道具
Teeker 新手上路 发表于 2020-5-22 17:13:16 | 显示全部楼层
wangyong 发表于 2020-5-21 08:56
你要爬什么板块?除了现在首页和社区精选现在网址相同了,其他版本没有变化
...

主要是笔记文本内容和评论吧,请问您有好用的规则吗
举报 使用道具
Teeker 新手上路 发表于 2020-5-22 17:17:15 | 显示全部楼层
wangyong 发表于 2020-5-21 08:56
你要爬什么板块?除了现在首页和社区精选现在网址相同了,其他版本没有变化
...

PC上小红书只有社区精选的20条内容,好像选不了板块吧

举报 使用道具
Teeker 新手上路 发表于 2020-5-22 17:25:10 | 显示全部楼层
wangyong 发表于 2020-5-21 08:56
你要爬什么板块?除了现在首页和社区精选现在网址相同了,其他版本没有变化
...

用之前那位的前两条规则都显示抓取失败,抓取规则不合适或超时时间设置太短,不知道怎么解决


举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 如何使用集搜客分词平台做社会网络图分析?
  • 关于食品安全的美国联邦法规文件的网络爬虫
  • 怎样更有效率地搜索互联网和整理知识—使用
  • 阿里巴巴外包询价网站用集搜客网络爬虫能采
  • 在限定论域的时候,为什么“任何一个”表示

热门用户

GMT+8, 2020-5-30 00:50