快捷导航
本帖最后由 scraper 于 2016-12-30 10:37 编辑


【启动采集前的配置】
  • 预先登陆网站:否
  • 配置打码平台:否

【运行方法】— 详见数据DIY图文教程

  • 用GS爬虫浏览器或者是安装了爬虫软件的火狐浏览器访问豆瓣_电影短评页面;
  • 输入一条网址,或者点击“输入多条网址”,然后点击“获取数据”;
  • 点击“启动采集”按钮,采集完成后点击“打包”按钮,就可以下载数据了。

【常见问题】— 欢迎跟帖留言
举报 使用道具
| 回复

共 24 个关于本帖的回复 最后回复于 昨天 16:27

lynette 新手上路 发表于 2017-1-7 22:08:17 | 显示全部楼层
你好 我在爬了620+左右的短评时,提示我在豆瓣页面登录。目测是被豆瓣的反爬虫机制给禁了,这种情况要怎么处理?
举报 使用道具
Fuller 管理员 发表于 2017-1-7 22:46:46 | 显示全部楼层
lynette 发表于 2017-1-7 22:08
你好 我在爬了620+左右的短评时,提示我在豆瓣页面登录。目测是被豆瓣的反爬虫机制给禁了,这种情况要怎么 ...

登录以后再抓取是否会遇到问题?

另外,这个网址的每个分页是有独立网址的,如果翻页到中间中断了,可以从断处接上,比如,https://movie.douban.com/subject ... _score&status=P ,start参数就是编号
举报 使用道具
McDwyane 新手上路 发表于 2018-4-23 20:35:10 | 显示全部楼层
Fuller 发表于 2017-1-7 22:46
登录以后再抓取是否会遇到问题?

另外,这个网址的每个分页是有独立网址的,如果翻页到中间中断了,可以 ...

从断开那里继续爬的话,还是显示要重新登录,应该怎么解决?

举报 使用道具
MebiuW 初级会员 发表于 2018-4-23 21:00:32 | 显示全部楼层
换IP,清缓存和cookies,点击爬虫浏览器右上角的设置按钮,会有窗口弹出来,选择清除缓存和cookies 清缓存和cookies.png
举报 使用道具
数据集 高级会员 发表于 2018-4-24 09:42:31 | 显示全部楼层
McDwyane 发表于 2018-4-23 20:35
从断开那里继续爬的话,还是显示要重新登录,应该怎么解决?

先用gs浏览器登录豆瓣账号,再添加断掉的那一页网址到数据diy继续采集
举报 使用道具
rinawei 初级会员 发表于 2019-12-3 18:29:22 | 显示全部楼层
为什么抓取全部数据的时候下载下来只有几百条呢
举报 使用道具
Fuller 管理员 发表于 2019-12-3 18:37:36 | 显示全部楼层
rinawei 发表于 2019-12-3 18:29
为什么抓取全部数据的时候下载下来只有几百条呢

采集豆瓣之前,在集搜客浏览器登陆一下豆瓣。豆瓣实际显示的页数有限。你可以手工翻一翻看看
举报 使用道具
lukecho 新手上路 发表于 2019-12-10 20:14:31 | 显示全部楼层
为什么会打包失败呢
举报 使用道具
Fuller 管理员 发表于 2019-12-10 22:12:49 | 显示全部楼层
lukecho 发表于 2019-12-10 20:14
为什么会打包失败呢

打包的时候,会提示有多少条数据,如果条数是0,那么很可能是采集失败了,也有可能数据库处理速度有点慢,还没有准备好打包。
如果已经看到有多条数据,打包却失败了,可能是网页登录状态过期了,刷新一下网页就会重新登录好,如果还是失败的,可以截个图发出来我们看看
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 数据管家和集搜客网络爬虫超出配额是怎么回
  • 用GooSeeker数据管家能采集微博内容吗?
  • 怎样使用GooSeeker数据管家启动采集任务?
  • GooSeeker数据管家软件使用指导
  • 如何使用集搜客分词平台做社会网络图分析?

热门用户

GMT+8, 2020-9-30 14:19