我需要采集的数据比较大量,请问如何在一台电脑上同时有2个或以上的打数机同时采集数据?如果屎同一个微博账号,我可以同时启用多少台打数机同时采集数据且不会被封号?

举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2020-7-27 00:11

沙发
Fuller 管理员 发表于 2020-7-26 16:47:15 | 只看该作者
如果要运行在多台电脑上,那么需要分别为每一台电脑申请一个微博账号,大家不要用相同的账号,否则很容易被封锁。

目前微博采集工具箱里面的采集工具运行速度比较慢,主要是爬被封锁。假设建立了微博关键词搜索采集任务,即使自己手工配置了更多爬虫群窗口,而不只是“启动采集”运行起来的2个爬虫群窗口,也不会给更多窗口分配任务,因为微博关键词搜索采集任务已经预设了,一台电脑只给一个爬虫群窗口分配采集任务,给另一个窗口分配打包任务。

但是,如果既建立了微博关键词搜索采集任务,又建立了评论采集任务,那么就有可能一个爬虫群窗口拿到搜索任务,另一个窗口拿到评论采集任务,其他窗口拿到打包任务。但是,这样被封锁的风险就提高了。

一天要定时看一下采集的情况,有没有登录状态失效了,有没有被封锁了,要及时采取应对措施
举报 使用道具
板凳
Fuller 管理员 发表于 2020-7-26 20:40:07 | 只看该作者
举报 使用道具
地板
AliceOu22 中级会员 发表于 2020-7-27 00:11:34 | 只看该作者
Fuller 发表于 2020-7-26 20:40
https://www.gooseeker.com/doc/thread-13241-1-1.html

哦哦!明白!谢谢!

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-4-22 01:54