快捷导航
本帖最后由 scraper 于 2016-12-30 10:28 编辑


【启动采集前的配置】
  • 预先登陆网站:否
  • 配置打码平台:否

【运行方法】— 详见数据DIY图文教程

  • 用GS爬虫浏览器或者是安装了爬虫软件的火狐浏览器访问豆瓣_电影影评页面;
  • 输入一条网址,或者点击“输入多条网址”,然后点击“获取数据”;
  • 点击“启动采集”按钮,采集完成后点击“打包”按钮,就可以下载数据了。

【常见问题】— 欢迎跟帖留言
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2019-12-4 09:39

yingying987 新手上路 发表于 2019-12-2 20:40:39 | 显示全部楼层
为什么充值钱了,打包不了数据,不是1积分20条数据吗,我充了10块,有100积分,不是应该可以爬取2000条吗
举报 使用道具
Fuller 管理员 发表于 2019-12-2 21:59:03 | 显示全部楼层
yingying987 发表于 2019-12-2 20:40
为什么充值钱了,打包不了数据,不是1积分20条数据吗,我充了10块,有100积分,不是应该可以爬取2 ...

打包数据的时候会提示,现在有多少条数据要打包,需要多少钱,你看到多少条数据?
举报 使用道具
yingying987 新手上路 发表于 2019-12-3 20:11:48 | 显示全部楼层
可能我爬取失败了,显示有一条数据可打包,是看到打包多少条数据,就是爬取到多少条是吗
举报 使用道具
Fuller 管理员 发表于 2019-12-4 09:39:47 | 显示全部楼层
yingying987 发表于 2019-12-3 20:11
可能我爬取失败了,显示有一条数据可打包,是看到打包多少条数据,就是爬取到多少条是吗 ...

对,看到能打包多少,才能导出那么多。中间出错的原因可能有多个,比如:
1,网站封锁了爬虫,看到404或者出现验证码
2,网络暂时性中断了,比如,翻页中断
3,爬虫处理过程入库偶然出现失败

一般应对方法是进行重采
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 在Jupyter Notebook中将分词结果转换成数组
  • 在Jupyter Notebook中使用word2vec和k-mean
  • 网络评价对水产品线上销量影响的实证分析—
  • “中坚青年”压力与动力转化的—以高校青年
  • “抖音”短视频文本里的新生代婆媳关系

热门用户

GMT+8, 2021-12-8 05:36