快捷导航
4 2552

豆瓣有反爬虫吗?

gooseeker_info 于 2016-10-28 18:07 发表 [复制链接]
豆瓣有反爬虫吗?为毛我只能爬两页啊
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2020-11-25 15:03

wangyong 版主 发表于 2020-11-25 15:03:25 | 显示全部楼层
集搜客里的豆瓣快捷采集,采集参数经过调整后,大批量采集也不会触发反爬
下载集搜客新发布的数据管家后,在数据管家中先登录豆瓣账号,在快捷采集中输入要采集的豆瓣网址就可以正常采集数据了。
快捷采集豆瓣.png
豆瓣电影列表数据展示:
豆瓣电影列表数据.png
举报 使用道具
gooseeker_info 金牌会员 发表于 2016-10-28 18:10:18 | 显示全部楼层
用集搜客网络爬虫吗?一般是规则没有做好

现在的网站不再是单纯的网页展示,而是要记录各种状态,这种网站更像一个会话系统,对话到哪了,都有相应的http参数记录这些状态。爬虫技术也要相应提高,集搜客爬虫有很多模拟人的行为的机制。

有些网页一定要顺着真人点击顺序进入的,如果只是模拟一下http参数,很多参数是很快就失效了的。如果用python写程序,要处理的事情就很多了
举报 使用道具
Fuller 管理员 发表于 2016-10-28 18:12:29 | 显示全部楼层
这里有一个理论性的文章《反爬虫的应对方法
举报 使用道具
wangyong 版主 发表于 2020-9-23 15:41:06 | 显示全部楼层
集搜客的快捷采集输入链接就可以采集豆瓣主要板块的数据,调度参数也是经过设置的,可以规避反爬:https://www.gooseeker.com/res/da ... 1%E5%88%97%E8%A1%A8
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 采集图片网址并下载图片(二)——下载途牛
  • 采集图片网址并下载图片(一)—— 单图下
  • 定位映射采集列表数据——以B站视频列表为
  • 网络爬虫抓包功能
  • 内容映射

热门用户

GMT+8, 2021-1-17 10:05