快捷导航
本帖最后由 scraper 于 2016-12-30 10:37 编辑


【启动采集前的配置】
  • 预先登陆网站:否
  • 配置打码平台:否

【运行方法】— 详见数据DIY图文教程

  • 用GS爬虫浏览器或者是安装了爬虫软件的火狐浏览器访问豆瓣_电影短评页面;
  • 输入一条网址,或者点击“输入多条网址”,然后点击“获取数据”;
  • 点击“启动采集”按钮,采集完成后点击“打包”按钮,就可以下载数据了。

【常见问题】— 欢迎跟帖留言
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2018-4-24 09:42

lynette 新手上路 发表于 2017-1-7 22:08:17 | 显示全部楼层
你好 我在爬了620+左右的短评时,提示我在豆瓣页面登录。目测是被豆瓣的反爬虫机制给禁了,这种情况要怎么处理?
举报 使用道具
Fuller 管理员 发表于 2017-1-7 22:46:46 | 显示全部楼层
lynette 发表于 2017-1-7 22:08
你好 我在爬了620+左右的短评时,提示我在豆瓣页面登录。目测是被豆瓣的反爬虫机制给禁了,这种情况要怎么 ...

登录以后再抓取是否会遇到问题?

另外,这个网址的每个分页是有独立网址的,如果翻页到中间中断了,可以从断处接上,比如,https://movie.douban.com/subject ... _score&status=P ,start参数就是编号
举报 使用道具
McDwyane 新手上路 发表于 2018-4-23 20:35:10 | 显示全部楼层
Fuller 发表于 2017-1-7 22:46
登录以后再抓取是否会遇到问题?

另外,这个网址的每个分页是有独立网址的,如果翻页到中间中断了,可以 ...

从断开那里继续爬的话,还是显示要重新登录,应该怎么解决?

举报 使用道具
MebiuW 初级会员 发表于 2018-4-23 21:00:32 | 显示全部楼层
换IP,清缓存和cookies,点击爬虫浏览器右上角的设置按钮,会有窗口弹出来,选择清除缓存和cookies 清缓存和cookies.png
举报 使用道具
数据集 高级会员 发表于 2018-4-24 09:42:31 | 显示全部楼层
McDwyane 发表于 2018-4-23 20:35
从断开那里继续爬的话,还是显示要重新登录,应该怎么解决?

先用gs浏览器登录豆瓣账号,再添加断掉的那一页网址到数据diy继续采集
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 自动导入导出数据
  • 批量爬取蘑菇街商品价格、评论信息
  • 微博用户数据分析
  • 批量爬取苏宁商品价格、评论信息
  • 批量爬取亚马逊商品价格、评论信息

热门用户

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2018-8-17 19:00