GooSeeker
产品
资源
教程
视频教程
使用交流
资讯
开启辅助访问
切换风格
请
登录
后使用快捷导航
没有帐号?
立即注册
登录
|
注册
快捷导航
资讯
常见问题
使用交流
python交流
视频教程
资源发布公告
数学建模交流
论坛
›
搜客社区
›
使用交流
4
9328
[数据分析案例分享]我如何使用Jupyter,Python,Pandas和Matplotlib进行自己的COVID-19数据分析
内容分析应用
于 2021-2-23 09:56
发表
[复制链接]
[只看楼主]
[打印]
[上一主题]
[下一主题]
内容分析应用
积分
2165
精华
0
威望
788
金钱
2
最后登录 1970-1-1
加为好友
发送消息
访问家园
本帖最后由 内容分析应用 于 2021-2-23 10:01 编辑
这篇文章:
How I’m doing my own COVID-19 data analysis using Jupyter, Python, Pandas and Matplotlib
, 收集了一些COVID-19的数据, 使用Jupyter Notebook, Python(pandas)处理数据, 并使用matplotlib来绘制数据。
数据分析过程
分析数据时,通常需要执行3个步骤:
1. 获取数据。您需要找到可靠的来源来获取最新数据。
2. 数据清理和转换。有了数据后,就必须对数据进行一些处理。这意味着清理数据,提取与您相关的数据,并确保其格式可用于下一步。
3. 演示和可视化。最后一步意味着以正确的格式显示数据。通常,在步骤2和3之间进行一些迭代,因为当您查看数据时,会发现要从中提取的新数据点。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有帐号?
立即注册
x
收藏
0
转播
支持
0
反对
0
举报
使用道具
|
回复
共 4 个关于本帖的回复 最后回复于 2021-2-23 10:21
内容分析应用
积分
2165
精华
0
威望
788
金钱
2
最后登录 1970-1-1
加为好友
发送消息
访问家园
个人资料
主题列表
发消息
沙发
内容分析应用
金牌会员
发表于 2021-2-23 09:59:50
|
只看该作者
本帖最后由 内容分析应用 于 2021-2-23 10:10 编辑
让我们看看该文如何使用COVID-19数据执行此操作。
步骤1:取得资料
有很多地方可以获取有关COVID-19的数据,本文使用以下两个数据集:
time_series_covid19_confirmed_US.csv
time_series_covid19_deaths_US.csv
要将数据集导入到Jupyter笔记本中,可以使用以下Python代码:
%matplotlib inline
import matplotlib
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
cases = pd.read_csv('https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_confirmed_US.csv')
deaths = pd.read_csv('https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_deaths_US.csv')
复制代码
前两行是import在Python中导入必要库的语句。之后,我们创建了两个对象,cases 并deaths代表原始数据集,加载到Pandas。
Pandas中的DataFrame是使用表格数据的非常有用的对象。我强烈建议在Coursera的以下课程中学习如何使用这些对象。
导入数据后,您可以使用以下命令查看数据:
print(cases.head())
print(deaths.head())
复制代码
这将显示数据的前5行,这对深入了解数据很有用。
现在已经加载了数据,我们可以继续下一步,数据清理和转换。
举报
使用道具
回复
支持
反对
发誓学好内容分析
积分
1100
精华
0
威望
402
金钱
2
最后登录 1970-1-1
加为好友
发送消息
访问家园
个人资料
主题列表
发消息
板凳
发誓学好内容分析
金牌会员
发表于 2021-2-23 10:05:32
|
只看该作者
这个例子好棒!我刚看过这篇文章《
Jupyter Notebook在机器学习领域的项目目录结构规划
》,启发好大,我觉得作为数据分析师,先要学会有条不紊地管理好自己的分析项目。
我要利用这个数据集,题主介绍的分析过程,我自己摸索一遍,写成一个notebook。
如果有大神已经有写好的notebook,共享一下看看
举报
使用道具
回复
支持
反对
内容分析应用
积分
2165
精华
0
威望
788
金钱
2
最后登录 1970-1-1
加为好友
发送消息
访问家园
个人资料
主题列表
发消息
地板
内容分析应用
金牌会员
发表于 2021-2-23 10:17:02
|
只看该作者
步骤2:资料清理与转换
接下来的步骤是清理数据。原文描述了逐步完成各个步骤及其对cases 对象的含义,然后向您展示如何在单个命令中对deaths 对象进行所有这些操作。
现在我们有了原始数据,我们可以开始使用它进行绘图了!(顺便说一句,这是一个迭代过程,我们将在第一张图之后返回到数据清理和转换。)
步骤3: 演示和可视化
在这一步中,我们将创建第一对图形。就我而言,我想显示离我最近的4个县的数据。为此,我将使用以下对象引用要可视化的县:
counties = ['Alameda',
'San Francisco',
'San Mateo',
'Santa Clara']
复制代码
为了在图表中显示这四个县的情况,我们可以使用以下代码:
plot = cases_clean[counties].plot()
plot.set_title("COVID-19 cases in Bay Area Counties")
复制代码
这将生成一个不错的第一张图:
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有帐号?
立即注册
x
举报
使用道具
回复
支持
反对
内容分析应用
积分
2165
精华
0
威望
788
金钱
2
最后登录 1970-1-1
加为好友
发送消息
访问家园
个人资料
主题列表
发消息
5
#
内容分析应用
金牌会员
发表于 2021-2-23 10:21:29
|
只看该作者
分析的过程会做多次的迭代,在查看数据时,会发现要从中提取的新数据点,这时需要返回到第2步再次做Data cleanup and transformation。。。
举报
使用道具
回复
支持
反对
返回列表
B
Color
Image
Link
Quote
Code
Smilies
高级模式
您需要登录后才可以回帖
登录
|
立即注册
发表回复
回帖并转播
回帖后跳转到最后一页
回复
推荐板块
使用交流
常见问题
数学建模交流
python交流
视频教程
精彩推荐
话题分析(NMF模型和LDA模型)软件的安装和
运行Apple无法验证的程序的方法
文本聚类分析软件的安装和使用方法
利用AI阅读和分析文本:扣子COZE记录用户反
在网页片段内直观标注——以B站评论采集为
热门话题
1
【集微库】微博采集工具箱使用常见问题
2
集搜客文本分词标注工具(V1版)
3
怎样使用快捷采集(以采集京东评论为例)
4
有没有办法采集机场的出租车信息?
5
获得积分的好方法:转发小程序、QQ群、微信
6
【求助】关于采集阿里巴巴国际站访客详情分
7
GooSeeker分词,情感分析和关键词抽取平台使
8
新浪微博_博主主页
9
怎样采集抖音关键词搜索后的数据
10
集搜客GooSeeker 网络爬虫版本发布公告
热门用户
Fuller
帖子:10583
访问主页>>
wangyong
帖子:1715
访问主页>>
gbkuce
帖子:0
访问主页>>
GMT+8, 2025-2-6 19:43
快速回复
快速发帖
返回顶部
返回列表
共 4 个关于本帖的回复 最后回复于 2021-2-23 10:21