快捷导航
5 185

微博爬取信息不全

AliceOu22 于 2020-8-5 02:45 发表 [复制链接]
我设置五天一个周期关键字搜索爬取微博数据,但是数据下来后发现只爬了几十个微博信息,时间也不是5天,而是可能一两天,请问这是被封号了么?平常我一般5天同样的关键词能爬800左右微博数据,50页为限。
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2020-8-5 19:07

Fuller 管理员 发表于 2020-8-5 09:03:08 | 显示全部楼层
爬虫运行的时候,要注意:
1,经常查看一下,用爬虫浏览器访问 一个微博页面试试,看看要不要重新登录。一遍一天要检查一次
2,如果连续采集,一天采集量超过1万次网页访问,不是1万条微博,因为一页上面有几十条微博,超过这个数量,最好每天换清理一下浏览器历史和cookie,然后重新登录微博
3,上面第二种情况,如果你有多个微博账号就更好了,轮换着使用。
4,爬虫运行的时候,不要最小化窗口,否则,微博这种动态内容就不加载了。
5,你用集搜客爬虫还是用数据管家?如果是数据管家,因为是刚开发出来,会不断出新版本,要核对一下是不是最新版本,不是的话重新下载安装一下
举报 使用道具
Fuller 管理员 发表于 2020-8-5 09:05:51 | 显示全部楼层
爬虫窗口运行的时候,窗口上可以覆盖别的窗口,但是不能最小化爬虫窗口。在底下一条点击图标也会最小化的。数据管家有提示功能,但是爬虫软件没有提示
最小化20200805090457.png
举报 使用道具
AliceOu22 初级会员 发表于 2020-8-5 18:23:58 | 显示全部楼层
Fuller 发表于 2020-8-5 09:03
爬虫运行的时候,要注意:
1,经常查看一下,用爬虫浏览器访问 一个微博页面试试,看看要不要重新登录。一 ...

我用集搜客爬虫,网页访问量要自己算还是在哪里可以查到?另外,清理浏览器历史和cookies是在集搜客的右上方齿轮状里面那里清理是吗?不是指我的chrome吧?
举报 使用道具
wangyong 版主 发表于 2020-8-5 18:52:01 | 显示全部楼层
QQ截图20200805184935.png
就是右上角齿轮操作的按钮

访问页面不用具体计算,一天清除一次缓存就好
举报 使用道具
Fuller 管理员 发表于 2020-8-5 19:07:09 | 显示全部楼层
网页访问量估计一下就行,如果使用微博采集工具箱,而且没有自己额外配置爬虫群窗口,自动运行起来只有2个爬虫群窗口,运行基本上不会过量,我们已经把微博采集工具箱速度调的比较合适了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 数据管家和集搜客网络爬虫超出配额是怎么回
  • 用GooSeeker数据管家能采集微博内容吗?
  • 怎样使用GooSeeker数据管家启动采集任务?
  • GooSeeker数据管家软件使用指导
  • 如何使用集搜客分词平台做社会网络图分析?

热门用户

GMT+8, 2020-9-29 12:42