7 8162

微博爬取信息不全

AliceOu22 于 2020-8-5 02:45 发表 [复制链接]
我设置五天一个周期关键字搜索爬取微博数据,但是数据下来后发现只爬了几十个微博信息,时间也不是5天,而是可能一两天,请问这是被封号了么?平常我一般5天同样的关键词能爬800左右微博数据,50页为限。
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2021-1-28 14:53

wangyong 版主 发表于 2021-1-13 14:30:47 | 显示全部楼层
用集搜客的微博快捷采集输入网址或关键词即可采集数据,
快捷采集微博.png
选中要采集的网站和板块,可以根据示例网址确认是不是自己要采集的页面

上图选中的是微博展开全文的采集入口,是来采集那种微博内容过长需要展开全文才能完整采集的微博内容,输入多条微博网址,直接启动即可采集

数据展示:
微博关键词搜索数据展示.png
举报 使用道具
wangyong 版主 发表于 2021-1-28 14:53:47 | 显示全部楼层
微博关键词搜索细分条件.png
微博工具箱中的微博关键词搜索工具,可以设置细分条件

微博的关键词搜索,一次搜索最多只显示前五十页的数据。

如果一次搜索的结果大于50页内容也会只显示前面五十页的内容,这种情况下就需要分多次搜索,每次搜索的结果不超过五十页。

微博关键词搜索工具中添加任务时可以设置按“天”来细分,比如按1天来搜索,就是每天都搜索一次,具体按多少条可以根据网页实际情况选择细分周期。
举报 使用道具
Fuller 管理员 发表于 2020-8-5 09:03:08 | 显示全部楼层
爬虫运行的时候,要注意:
1,经常查看一下,用爬虫浏览器访问 一个微博页面试试,看看要不要重新登录。一遍一天要检查一次
2,如果连续采集,一天采集量超过1万次网页访问,不是1万条微博,因为一页上面有几十条微博,超过这个数量,最好每天换清理一下浏览器历史和cookie,然后重新登录微博
3,上面第二种情况,如果你有多个微博账号就更好了,轮换着使用。
4,爬虫运行的时候,不要最小化窗口,否则,微博这种动态内容就不加载了。
5,你用集搜客爬虫还是用数据管家?如果是数据管家,因为是刚开发出来,会不断出新版本,要核对一下是不是最新版本,不是的话重新下载安装一下
举报 使用道具
Fuller 管理员 发表于 2020-8-5 09:05:51 | 显示全部楼层
爬虫窗口运行的时候,窗口上可以覆盖别的窗口,但是不能最小化爬虫窗口。在底下一条点击图标也会最小化的。数据管家有提示功能,但是爬虫软件没有提示
最小化20200805090457.png
举报 使用道具
AliceOu22 中级会员 发表于 2020-8-5 18:23:58 | 显示全部楼层
Fuller 发表于 2020-8-5 09:03
爬虫运行的时候,要注意:
1,经常查看一下,用爬虫浏览器访问 一个微博页面试试,看看要不要重新登录。一 ...

我用集搜客爬虫,网页访问量要自己算还是在哪里可以查到?另外,清理浏览器历史和cookies是在集搜客的右上方齿轮状里面那里清理是吗?不是指我的chrome吧?
举报 使用道具
wangyong 版主 发表于 2020-8-5 18:52:01 | 显示全部楼层
QQ截图20200805184935.png
就是右上角齿轮操作的按钮

访问页面不用具体计算,一天清除一次缓存就好
举报 使用道具
Fuller 管理员 发表于 2020-8-5 19:07:09 | 显示全部楼层
网页访问量估计一下就行,如果使用微博采集工具箱,而且没有自己额外配置爬虫群窗口,自动运行起来只有2个爬虫群窗口,运行基本上不会过量,我们已经把微博采集工具箱速度调的比较合适了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 16:52