网址:https://pages.xiaohongshu.com/goods/562b34acf3a3fa18ad8f4148
主题:小红书_自营_3P

问题:采集出现403

目前操作方法
放慢速递
更换IP
清除COOKIE
删除appdata内gooseeker 文件夹
更换user-agent

效果不佳,采集20个左右页面,又会出现403

举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 2018-1-17 09:40

沙发
数据集 高级会员 发表于 2018-1-15 15:41:28 | 只看该作者
出现403是采集的网站操作频繁的话容易被封锁,采集这种网站更换ip和清理cookies效果不大,需要更换useragent,找到一个不会被这个网站封锁的useragent去采集,更换useragent可参考《常用浏览器的useragent》
举报 使用道具
板凳
leixiaola 金牌会员 发表于 2018-1-15 15:58:46 | 只看该作者
数据集 发表于 2018-1-15 15:41
出现403是采集的网站操作频繁的话容易被封锁,采集这种网站更换ip和清理cookies效果不大,需要更换useragen ...

我使用的gooseeker 工具非python更改user-agent 是如下图这样吗?
效果不佳依然403




举报 使用道具
地板
数据集 高级会员 发表于 2018-1-15 16:12:23 | 只看该作者
leixiaola 发表于 2018-1-15 15:58
我使用的gooseeker 工具非python更改user-agent 是如下图这样吗?
效果不佳依然403

修改没错,需要找到适合这个网站的useragent,这个不行就试试其他的。
举报 使用道具
5#
leixiaola 金牌会员 发表于 2018-1-15 16:46:24 | 只看该作者



我用firefox 自带的检查 看到这个网页下的user-agent 是Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36

将其填写到gooseeker 工具中 依旧无效
举报 使用道具
6#
数据集 高级会员 发表于 2018-1-15 17:04:52 | 只看该作者
leixiaola 发表于 2018-1-15 16:46
我用firefox 自带的检查 看到这个网页下的user-agent 是Mozilla/5.0 (Windows NT 10.0; Win64; x64) App ...

教程里有那么多代理,不要只试一个,其他的都试一下。
举报 使用道具
7#
leixiaola 金牌会员 发表于 2018-1-15 17:11:40 | 只看该作者
我换了N个 每个每次都智能采集10多个。有没有自动切换呢、
举报 使用道具
8#
数据集 高级会员 发表于 2018-1-15 18:29:18 | 只看该作者
leixiaola 发表于 2018-1-15 17:11
我换了N个 每个每次都智能采集10多个。有没有自动切换呢、

没有自动切换,只能手动切换,最好先停一会换ip后再采集,不要操作太频繁
举报 使用道具
9#
leixiaola 金牌会员 发表于 2018-1-16 00:52:36 | 只看该作者
数据集 发表于 2018-1-15 18:29
没有自动切换,只能手动切换,最好先停一会换ip后再采集,不要操作太频繁
...

我大概有2w+的数据要采集!

采集十几个就会403,陷入深深的绝望
举报 使用道具
10#
leixiaola 金牌会员 发表于 2018-1-16 14:29:00 | 只看该作者
有没有 更好的解决办法呢
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-23 21:58