【豆瓣_电影短评采集】#GooSeeker数据DIY#

scraper

本帖最后由 scraper 于 2016-12-30 10:37 编辑

【启动采集前的配置】

【运行方法】— 详见数据DIY图文教程

【常见问题】— 欢迎跟帖留言

lynette · 发表于 2017-1-7 22:08:17

你好我在爬了620+左右的短评时，提示我在豆瓣页面登录。目测是被豆瓣的反爬虫机制给禁了，这种情况要怎么处理？

Fuller · 发表于 2017-1-7 22:46:46

lynette 发表于 2017-1-7 22:08
你好我在爬了620+左右的短评时，提示我在豆瓣页面登录。目测是被豆瓣的反爬虫机制给禁了，这种情况要怎么 ...

登录以后再抓取是否会遇到问题？

另外，这个网址的每个分页是有独立网址的，如果翻页到中间中断了，可以从断处接上，比如，https://movie.douban.com/subject ... _score&status=P ，start参数就是编号

McDwyane · 发表于 2018-4-23 20:35:10

Fuller 发表于 2017-1-7 22:46
登录以后再抓取是否会遇到问题？

另外，这个网址的每个分页是有独立网址的，如果翻页到中间中断了，可以 ...

从断开那里继续爬的话，还是显示要重新登录，应该怎么解决？

MebiuW · 发表于 2018-4-23 21:00:32

换IP，清缓存和cookies，点击爬虫浏览器右上角的设置按钮，会有窗口弹出来，选择清除缓存和cookies

数据集 · 发表于 2018-4-24 09:42:31

McDwyane 发表于 2018-4-23 20:35
从断开那里继续爬的话，还是显示要重新登录，应该怎么解决？

先用gs浏览器登录豆瓣账号，再添加断掉的那一页网址到数据diy继续采集

rinawei · 发表于 2019-12-3 18:29:22

为什么抓取全部数据的时候下载下来只有几百条呢

Fuller · 发表于 2019-12-3 18:37:36

rinawei 发表于 2019-12-3 18:29
为什么抓取全部数据的时候下载下来只有几百条呢

采集豆瓣之前，在集搜客浏览器登陆一下豆瓣。豆瓣实际显示的页数有限。你可以手工翻一翻看看

lukecho · 发表于 2019-12-10 20:14:31

为什么会打包失败呢

Fuller · 发表于 2019-12-10 22:12:49

lukecho 发表于 2019-12-10 20:14
为什么会打包失败呢

打包的时候，会提示有多少条数据，如果条数是0，那么很可能是采集失败了，也有可能数据库处理速度有点慢，还没有准备好打包。
如果已经看到有多条数据，打包却失败了，可能是网页登录状态过期了，刷新一下网页就会重新登录好，如果还是失败的，可以截个图发出来我们看看

共 24 个关于本帖的回复最后回复于 2020-9-29 16:27

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页