采集中国裁判文书网的信息,当访问次数多了,就会弹出验证码,输入验证码后,就会跳转到首页,而不是之前的页面,我想要回到之前的页面继续往下采集,不知道用集搜客能不能实现,我问过八爪鱼,他们说不行,你们行吗,可以的话。我就下单了

http://wenshu.court.gov.cn/list/list/?sorttype=1&conditions=searchWord+%E4%B8%B4%E6%B2%82%E5%B8%82%E5%85%B0%E5%B1%B1%E5%8C%BA%E4%BA%BA%E6%B0%91%E6%B3%95%E9%99%A2+++%E5%9F%BA%E5%B1%82%E6%B3%95%E9%99%A2:%E4%B8%B4%E6%B2%82%E5%B8%82%E5%85%B0%E5%B1%B1%E5%8C%BA%E4%BA%BA%E6%B0%91%E6%B3%95%E9%99%A2
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2017-3-2 10:40

沙发
ym 版主 发表于 2017-3-2 10:32:00 | 只看该作者
网站本身设置了输入验证码后就跳到首页的情况,暂时没有解决方案
举报 使用道具
板凳
瑞林 初级会员 发表于 2017-3-2 10:37:38 | 只看该作者
好的,谢谢
举报 使用道具
地板
ym 版主 发表于 2017-3-2 10:40:11 | 只看该作者
你可以控制好采集的频率和速度,降低验证码弹出的几率,这样可以尽可能多地采到更多信息。
参考攻略《抓取网页信息太快导致封锁IP的情况,如何处理》
举报 使用道具
5#
瑞林 初级会员 发表于 2017-3-2 10:40:31 | 只看该作者
行吧
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-24 00:54