本帖最后由 scraper 于 2016-12-30 10:37 编辑


【启动采集前的配置】
  • 预先登陆网站:否
  • 配置打码平台:否

【运行方法】— 详见数据DIY图文教程

  • 用GS爬虫浏览器或者是安装了爬虫软件的火狐浏览器访问豆瓣_电影短评页面;
  • 输入一条网址,或者点击“输入多条网址”,然后点击“获取数据”;
  • 点击“启动采集”按钮,采集完成后点击“打包”按钮,就可以下载数据了。

【常见问题】— 欢迎跟帖留言
举报 使用道具
| 回复

共 24 个关于本帖的回复 最后回复于 2020-9-29 16:27

沙发
lynette 新手上路 发表于 2017-1-7 22:08:17 | 只看该作者
你好 我在爬了620+左右的短评时,提示我在豆瓣页面登录。目测是被豆瓣的反爬虫机制给禁了,这种情况要怎么处理?
举报 使用道具
板凳
Fuller 管理员 发表于 2017-1-7 22:46:46 | 只看该作者
lynette 发表于 2017-1-7 22:08
你好 我在爬了620+左右的短评时,提示我在豆瓣页面登录。目测是被豆瓣的反爬虫机制给禁了,这种情况要怎么 ...

登录以后再抓取是否会遇到问题?

另外,这个网址的每个分页是有独立网址的,如果翻页到中间中断了,可以从断处接上,比如,https://movie.douban.com/subject ... _score&status=P ,start参数就是编号
举报 使用道具
地板
McDwyane 新手上路 发表于 2018-4-23 20:35:10 | 只看该作者
Fuller 发表于 2017-1-7 22:46
登录以后再抓取是否会遇到问题?

另外,这个网址的每个分页是有独立网址的,如果翻页到中间中断了,可以 ...

从断开那里继续爬的话,还是显示要重新登录,应该怎么解决?

举报 使用道具
5#
MebiuW 初级会员 发表于 2018-4-23 21:00:32 | 只看该作者
换IP,清缓存和cookies,点击爬虫浏览器右上角的设置按钮,会有窗口弹出来,选择清除缓存和cookies
举报 使用道具
6#
数据集 高级会员 发表于 2018-4-24 09:42:31 | 只看该作者
McDwyane 发表于 2018-4-23 20:35
从断开那里继续爬的话,还是显示要重新登录,应该怎么解决?

先用gs浏览器登录豆瓣账号,再添加断掉的那一页网址到数据diy继续采集
举报 使用道具
7#
rinawei 高级会员 发表于 2019-12-3 18:29:22 | 只看该作者
为什么抓取全部数据的时候下载下来只有几百条呢
举报 使用道具
8#
Fuller 管理员 发表于 2019-12-3 18:37:36 | 只看该作者
rinawei 发表于 2019-12-3 18:29
为什么抓取全部数据的时候下载下来只有几百条呢

采集豆瓣之前,在集搜客浏览器登陆一下豆瓣。豆瓣实际显示的页数有限。你可以手工翻一翻看看
举报 使用道具
9#
lukecho 新手上路 发表于 2019-12-10 20:14:31 | 只看该作者
为什么会打包失败呢
举报 使用道具
10#
Fuller 管理员 发表于 2019-12-10 22:12:49 | 只看该作者
lukecho 发表于 2019-12-10 20:14
为什么会打包失败呢

打包的时候,会提示有多少条数据,如果条数是0,那么很可能是采集失败了,也有可能数据库处理速度有点慢,还没有准备好打包。
如果已经看到有多条数据,打包却失败了,可能是网页登录状态过期了,刷新一下网页就会重新登录好,如果还是失败的,可以截个图发出来我们看看
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 04:12