7 17649

豆瓣有反爬虫吗?

gooseeker_info 于 2016-10-28 18:07 发表 [复制链接]
豆瓣有反爬虫吗?为毛我只能爬两页啊
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2021-5-6 10:12

wangyong 版主 发表于 2020-11-25 15:03:25 | 显示全部楼层
集搜客里的豆瓣快捷采集,采集参数经过调整后,大批量采集也不会触发反爬
下载集搜客新发布的数据管家后,在数据管家中先登录豆瓣账号,在快捷采集中输入要采集的豆瓣网址就可以正常采集数据了。
快捷采集豆瓣.png
豆瓣电影列表数据展示:
豆瓣电影列表数据.png
举报 使用道具
gooseeker_info 金牌会员 发表于 2016-10-28 18:10:18 | 显示全部楼层
用集搜客网络爬虫吗?一般是规则没有做好

现在的网站不再是单纯的网页展示,而是要记录各种状态,这种网站更像一个会话系统,对话到哪了,都有相应的http参数记录这些状态。爬虫技术也要相应提高,集搜客爬虫有很多模拟人的行为的机制。

有些网页一定要顺着真人点击顺序进入的,如果只是模拟一下http参数,很多参数是很快就失效了的。如果用python写程序,要处理的事情就很多了
举报 使用道具
Fuller 管理员 发表于 2016-10-28 18:12:29 | 显示全部楼层
这里有一个理论性的文章《反爬虫的应对方法
举报 使用道具
wangyong 版主 发表于 2020-9-23 15:41:06 | 显示全部楼层
集搜客的快捷采集输入链接就可以采集豆瓣主要板块的数据,调度参数也是经过设置的,可以规避反爬:https://www.gooseeker.com/res/da ... 1%E5%88%97%E8%A1%A8
举报 使用道具
2371178400zad_ 新手上路 发表于 2021-4-22 16:35:12 | 显示全部楼层
wangyong 发表于 2020-11-25 15:03
集搜客里的豆瓣快捷采集,采集参数经过调整后,大批量采集也不会触发反爬
下载集搜客新发布的数据管家后, ...

请问这样子之后怎么进行后续的导入导出数据啊?我没法把它转换成Excel
举报 使用道具
Fuller 管理员 发表于 2021-4-22 17:01:53 | 显示全部楼层
2371178400zad_ 发表于 2021-4-22 16:35
请问这样子之后怎么进行后续的导入导出数据啊?我没法把它转换成Excel

你用的是快捷采集?还是自己定义的规则?
快捷采集运行完成后,点击导出数据就能得到excel。自定义的规则,运行完成后,会看到一个状态提示页面,上面有导出按钮。

你说的没法转成excel是指什么?
举报 使用道具
wangyong 版主 发表于 2021-5-6 10:12:52 | 显示全部楼层
2371178400zad_ 发表于 2021-4-22 16:35
请问这样子之后怎么进行后续的导入导出数据啊?我没法把它转换成Excel

采集完成后,可以在快捷采集管理后台中点击打包下载Excel格式的数据
QQ截图20210506101202.png
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 16:36