抓淘宝评论数据一直跳出来访问限制,输入后发现最后抓的数据不完整,有什么办法么
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2017-3-22 14:10

沙发
xandy 论坛元老 发表于 2017-3-22 11:32:54 | 只看该作者
什么访问限制?是要输入验证码吗?输入验证码之后看下数据是不是完整的,如果本身数据是不完整的那么采集到的也是不完整的。
你可以描述清楚点!
举报 使用道具
板凳
pjh0318 新手上路 发表于 2017-3-22 12:45:41 | 只看该作者
xandy 发表于 2017-3-22 11:32
什么访问限制?是要输入验证码吗?输入验证码之后看下数据是不是完整的,如果本身数据是不完整的那么采集到 ...

就是中途会一直跳出来验证码,超时输入或者没输就会一直在重复爬那一页,输错或者超时都会连续输好几次验证码,结束之后会发现某几页是重复的或者是缺数据的,和网页上原本数据对不上。
举报 使用道具
地板
xandy 论坛元老 发表于 2017-3-22 14:10:44 | 只看该作者
pjh0318 发表于 2017-3-22 12:45
就是中途会一直跳出来验证码,超时输入或者没输就会一直在重复爬那一页,输错或者超时都会连续输好几次验 ...

集搜客有自动打码功能,你可以了解一下。《加强网络爬虫装备:连发弹仓、飞掠模式、连续打码功能介绍
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-27 10:25