快捷导航
今天尝试用数据管家抓取新浪微博关键词搜索结果, 整个过程很流畅,很好用。
这里把步骤记录下来做个分享:
1. 从集搜客官网或技术交流QQ群,下载数据管家软件, 然后一键安装。
2. 运行数据管家。如果是第一次运行集搜客爬虫软件或者数据管家,可以按提示输入爬虫账号和密码
2020-07-28-02.png
3. 进入微博工具箱关键词工具(注:第一次会提示登录集搜客官网),  输入关键词和起始日期,点击"确认添加"。
(因为微博翻页限制最大50页。如果本次结果很多而超过50页,可以点击"细分条件", 把时间细分,这样爬虫可以采集很多个50页。参见这个帖子:微博关键词采集 ,在设置细分条件的地方有分段时间粒度,那个是什么意思?
2020-07-28-03.png
4. 登录微博:在数据管家新打开一个网页tab窗口, 访问新浪微博并登录
5. 点击关键词工具页面的"启动采集"按钮, 数据管家会打开2个新的tab窗口开始采集。
2020-07-28-04.png

举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2020-7-28 11:27

内容分析应用 中级会员 发表于 2020-7-28 11:19:40 | 显示全部楼层
那个"细分条件"是什么意思?
举报 使用道具
马涌河畔 初级会员 发表于 2020-7-28 11:27:19 | 显示全部楼层
内容分析应用 发表于 2020-7-28 11:19
那个"细分条件"是什么意思?

我理解是这样的,因为微博的限制, 一个搜索结果最多显示50页,比如你搜索"新冠疫情", 时间段是2020-07-21到2020-07-27, 搜到的结果会有远远超过50页。
如果不设置细分条件, 那么最多只能采集这50页的结果。
设置了细分条件,可以按时间,省市细分, 这样等于是把爬取的网址由1条分成了很多条,每条都可以爬取50页结果。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 数据管家和集搜客网络爬虫超出配额是怎么回
  • 用GooSeeker数据管家能采集微博内容吗?
  • 怎样使用GooSeeker数据管家启动采集任务?
  • GooSeeker数据管家软件使用指导
  • 如何使用集搜客分词平台做社会网络图分析?

热门用户

GMT+8, 2020-8-7 11:04