GooSeeker
产品
资源
教程
视频教程
使用交流
资讯
开启辅助访问
切换风格
登录
|
注册
快捷导航
搜索
搜索
本版
文章
帖子
用户
资讯
常见问题
使用交流
python交流
视频教程
资源发布公告
数学建模交流
论坛
›
搜客社区
›
使用交流
4
77
[数据分析案例分享]我如何使用Jupyter,Python,Pandas和Matplotlib进行自己的COVID-19数据分析
内容分析应用
于
前天 09:56
发表
[复制链接]
内容分析应用
积分
1181
精华
0
威望
406
金钱
2
最后登录 1970-1-1
加为好友
发送消息
访问家园
本帖最后由 内容分析应用 于 2021-2-23 10:01 编辑
这篇文章:
How I’m doing my own COVID-19 data analysis using Jupyter, Python, Pandas and Matplotlib
, 收集了一些COVID-19的数据, 使用Jupyter Notebook, Python(pandas)处理数据, 并使用matplotlib来绘制数据。
数据分析过程
分析数据时,通常需要执行3个步骤:
1. 获取数据。您需要找到可靠的来源来获取最新数据。
2. 数据清理和转换。有了数据后,就必须对数据进行一些处理。这意味着清理数据,提取与您相关的数据,并确保其格式可用于下一步。
3. 演示和可视化。最后一步意味着以正确的格式显示数据。通常,在步骤2和3之间进行一些迭代,因为当您查看数据时,会发现要从中提取的新数据点。
举报
使用道具
|
回复
共 4 个关于本帖的回复 最后回复于
前天 10:21
内容分析应用
积分
1181
精华
0
威望
406
金钱
2
最后登录 1970-1-1
加为好友
发送消息
访问家园
个人资料
主题列表
发消息
内容分析应用
金牌会员
发表于
前天 09:59
|
显示全部楼层
本帖最后由 内容分析应用 于 2021-2-23 10:10 编辑
让我们看看该文如何使用COVID-19数据执行此操作。
步骤1:取得资料
有很多地方可以获取有关COVID-19的数据,本文使用以下两个数据集:
time_series_covid19_confirmed_US.csv
time_series_covid19_deaths_US.csv
要将数据集导入到Jupyter笔记本中,可以使用以下Python代码:
%matplotlib inline
import matplotlib
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
cases = pd.read_csv('https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_confirmed_US.csv')
deaths = pd.read_csv('https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_deaths_US.csv')
复制代码
前两行是import在Python中导入必要库的语句。之后,我们创建了两个对象,cases 并deaths代表原始数据集,加载到Pandas。
Pandas中的DataFrame是使用表格数据的非常有用的对象。我强烈建议在Coursera的以下课程中学习如何使用这些对象。
导入数据后,您可以使用以下命令查看数据:
print(cases.head())
print(deaths.head())
复制代码
这将显示数据的前5行,这对深入了解数据很有用。
现在已经加载了数据,我们可以继续下一步,数据清理和转换。
举报
使用道具
回复
支持
反对
发誓学好内容分析
积分
738
精华
0
威望
272
金钱
2
最后登录 1970-1-1
加为好友
发送消息
访问家园
个人资料
主题列表
发消息
发誓学好内容分析
高级会员
发表于
前天 10:05
|
显示全部楼层
这个例子好棒!我刚看过这篇文章《
Jupyter Notebook在机器学习领域的项目目录结构规划
》,启发好大,我觉得作为数据分析师,先要学会有条不紊地管理好自己的分析项目。
我要利用这个数据集,题主介绍的分析过程,我自己摸索一遍,写成一个notebook。
如果有大神已经有写好的notebook,共享一下看看
举报
使用道具
回复
支持
反对
内容分析应用
积分
1181
精华
0
威望
406
金钱
2
最后登录 1970-1-1
加为好友
发送消息
访问家园
个人资料
主题列表
发消息
内容分析应用
金牌会员
发表于
前天 10:17
|
显示全部楼层
步骤2:资料清理与转换
接下来的步骤是清理数据。原文描述了逐步完成各个步骤及其对cases 对象的含义,然后向您展示如何在单个命令中对deaths 对象进行所有这些操作。
现在我们有了原始数据,我们可以开始使用它进行绘图了!(顺便说一句,这是一个迭代过程,我们将在第一张图之后返回到数据清理和转换。)
步骤3: 演示和可视化
在这一步中,我们将创建第一对图形。就我而言,我想显示离我最近的4个县的数据。为此,我将使用以下对象引用要可视化的县:
counties = ['Alameda',
'San Francisco',
'San Mateo',
'Santa Clara']
复制代码
为了在图表中显示这四个县的情况,我们可以使用以下代码:
plot = cases_clean[counties].plot()
plot.set_title("COVID-19 cases in Bay Area Counties")
复制代码
这将生成一个不错的第一张图:
举报
使用道具
回复
支持
反对
内容分析应用
积分
1181
精华
0
威望
406
金钱
2
最后登录 1970-1-1
加为好友
发送消息
访问家园
个人资料
主题列表
发消息
内容分析应用
金牌会员
发表于
前天 10:21
|
显示全部楼层
分析的过程会做多次的迭代,在查看数据时,会发现要从中提取的新数据点,这时需要返回到第2步再次做Data cleanup and transformation。。。
举报
使用道具
回复
支持
反对
返回列表
B
Color
Image
Link
Quote
Code
Smilies
高级模式
您需要登录后才可以回帖
登录
|
立即注册
发表回复
回帖后跳转到最后一页
回复
推荐板块
使用交流
常见问题
数学建模交流
python交流
视频教程
精彩推荐
用Jupyter Notebook的模板管理数据分析过程
Jupyter Notebook在机器学习领域的项目目录
统计学中的二项分布、负二项分布、几何分布
连续动作:自动搜索关键词采集信息—以人民
利用重加载防止采集微博博主消息列表中断
热门话题
1
【集微库】微博采集工具箱使用常见问题
2
有没有办法采集机场的出租车信息?
3
【求助】关于采集阿里巴巴国际站访客详情分
4
集搜客文本分词标注工具(V1版)
5
新浪微博_博主主页
6
怎样使用快捷采集(以采集京东评论为例)
7
集搜客GooSeeker 网络爬虫版本发布公告
8
猫途鹰的评论星级抓取不成功,只有与我样本
9
微信数据采集攻略
10
泰國網頁資訊爬取問題
热门用户
Fuller
帖子:8956
访问主页>>
wangyong
帖子:1376
访问主页>>
ym
帖子:1678
访问主页>>
GMT+8, 2021-2-25 13:26
快速回复
快速发帖
返回顶部
返回列表
共 4 个关于本帖的回复 最后回复于 前天 10:21