我设置五天一个周期关键字搜索爬取微博数据,但是数据下来后发现只爬了几十个微博信息,时间也不是5天,而是可能一两天,请问这是被封号了么?平常我一般5天同样的关键词能爬800左右微博数据,50页为限。
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2021-1-28 14:53

来自 7#
wangyong 版主 发表于 2021-1-13 14:30:47 | 只看该作者
用集搜客的微博快捷采集输入网址或关键词即可采集数据,

选中要采集的网站和板块,可以根据示例网址确认是不是自己要采集的页面

上图选中的是微博展开全文的采集入口,是来采集那种微博内容过长需要展开全文才能完整采集的微博内容,输入多条微博网址,直接启动即可采集

数据展示:

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
来自 8#
wangyong 版主 发表于 2021-1-28 14:53:47 | 只看该作者

微博工具箱中的微博关键词搜索工具,可以设置细分条件

微博的关键词搜索,一次搜索最多只显示前五十页的数据。

如果一次搜索的结果大于50页内容也会只显示前面五十页的内容,这种情况下就需要分多次搜索,每次搜索的结果不超过五十页。

微博关键词搜索工具中添加任务时可以设置按“天”来细分,比如按1天来搜索,就是每天都搜索一次,具体按多少条可以根据网页实际情况选择细分周期。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
沙发
Fuller 管理员 发表于 2020-8-5 09:03:08 | 只看该作者
爬虫运行的时候,要注意:
1,经常查看一下,用爬虫浏览器访问 一个微博页面试试,看看要不要重新登录。一遍一天要检查一次
2,如果连续采集,一天采集量超过1万次网页访问,不是1万条微博,因为一页上面有几十条微博,超过这个数量,最好每天换清理一下浏览器历史和cookie,然后重新登录微博
3,上面第二种情况,如果你有多个微博账号就更好了,轮换着使用。
4,爬虫运行的时候,不要最小化窗口,否则,微博这种动态内容就不加载了。
5,你用集搜客爬虫还是用数据管家?如果是数据管家,因为是刚开发出来,会不断出新版本,要核对一下是不是最新版本,不是的话重新下载安装一下
举报 使用道具
板凳
Fuller 管理员 发表于 2020-8-5 09:05:51 | 只看该作者
爬虫窗口运行的时候,窗口上可以覆盖别的窗口,但是不能最小化爬虫窗口。在底下一条点击图标也会最小化的。数据管家有提示功能,但是爬虫软件没有提示

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
地板
AliceOu22 中级会员 发表于 2020-8-5 18:23:58 | 只看该作者
Fuller 发表于 2020-8-5 09:03
爬虫运行的时候,要注意:
1,经常查看一下,用爬虫浏览器访问 一个微博页面试试,看看要不要重新登录。一 ...

我用集搜客爬虫,网页访问量要自己算还是在哪里可以查到?另外,清理浏览器历史和cookies是在集搜客的右上方齿轮状里面那里清理是吗?不是指我的chrome吧?
举报 使用道具
5#
wangyong 版主 发表于 2020-8-5 18:52:01 | 只看该作者

就是右上角齿轮操作的按钮

访问页面不用具体计算,一天清除一次缓存就好

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
6#
Fuller 管理员 发表于 2020-8-5 19:07:09 | 只看该作者
网页访问量估计一下就行,如果使用微博采集工具箱,而且没有自己额外配置爬虫群窗口,自动运行起来只有2个爬虫群窗口,运行基本上不会过量,我们已经把微博采集工具箱速度调的比较合适了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-22 15:30