今天尝试用数据管家抓取新浪微博关键词搜索结果, 整个过程很流畅,很好用。
这里把步骤记录下来做个分享:
1. 从集搜客官网或技术交流QQ群,下载数据管家软件, 然后一键安装。
2. 运行数据管家。如果是第一次运行集搜客爬虫软件或者数据管家,可以按提示输入爬虫账号和密码

3. 进入微博工具箱关键词工具(注:第一次会提示登录集搜客官网),  输入关键词和起始日期,点击"确认添加"。
(因为微博翻页限制最大50页。如果本次结果很多而超过50页,可以点击"细分条件", 把时间细分,这样爬虫可以采集很多个50页。参见这个帖子:微博关键词采集 ,在设置细分条件的地方有分段时间粒度,那个是什么意思?

4. 登录微博:在数据管家新打开一个网页tab窗口, 访问新浪微博并登录
5. 点击关键词工具页面的"启动采集"按钮, 数据管家会打开2个新的tab窗口开始采集。


举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2020-7-28 11:27

沙发
内容分析应用 金牌会员 发表于 2020-7-28 11:19:40 | 只看该作者
那个"细分条件"是什么意思?
举报 使用道具
板凳
马涌河畔 金牌会员 发表于 2020-7-28 11:27:19 | 只看该作者
内容分析应用 发表于 2020-7-28 11:19
那个"细分条件"是什么意思?

我理解是这样的,因为微博的限制, 一个搜索结果最多显示50页,比如你搜索"新冠疫情", 时间段是2020-07-21到2020-07-27, 搜到的结果会有远远超过50页。
如果不设置细分条件, 那么最多只能采集这50页的结果。
设置了细分条件,可以按时间,省市细分, 这样等于是把爬取的网址由1条分成了很多条,每条都可以爬取50页结果。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 18:07