本帖最后由 内容分析应用 于 2021-2-24 10:23 编辑

昨天分享了一个COVID-19数据分析的数据集: [数据分析案例分享]我如何使用Jupyter,Python,Pandas和Matplotlib进行自己的COVID-19数据分析

今天再分享一个数据集:COVID-19 Analysis With Python, 这个数据集使用python的pandas,numpy ,matplotlib,plotly进行数据提取与转换,数据探索分析和数据可视化(Data Wrangling, Exploratory Data Analysis and Data Visualization)

Step 1, 导入包(Importing required Packages)
  1. import pandas as pd
  2. import matplotlib.pyplot as plt
  3. import plotly.express as px
  4. import numpy as np
  5. import plotly
  6. import plotly.graph_objects as go
  7. from plotly.subplots import make_subplots
复制代码
Step 2, 数据获取(Gathering Data)
  1. import requests

  2. # Getting Data
  3. url_request = requests.get("https://services1.arcgis.com/0MSEUqKaxRlEPj5g/arcgis/rest/services/Coronavirus_2019_nCoV_Cases/FeatureServer/1/query?where=1%3D1&outFields=*&outSR=4326&f=json")
  4. url_json = url_request.json()
  5. df = pd.DataFrame(url_json['features'])
复制代码
原文示例是用requests获取某网站提供的json数据。
注:数据获取部分,可以使用更强大的通用版爬虫工具:集搜客爬虫软件,并且微博工具箱快捷采集都是添加网址, 采集完成后直接导出excel。






举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2021-2-24 10:30

沙发
内容分析应用 金牌会员 发表于 2021-2-24 10:27:44 | 只看该作者
Step 3 数据整理(Data Wrangling)
数据整理是一个过程,在此过程中,我们将根据需要转换和清理数据。我们无法使用原始提取的数据进行分析。因此,我们必须转换数据以继续进行分析。这是原文的数据整理的代码:
  1. import datetime as dt

  2. # a. transforming data
  3. data_list = df['attributes'].tolist()
  4. data = pd.DataFrame(data_list)
  5. data.set_index('OBJECTID')
  6. data = data[['Province_State','Country_Region','Last_Update','Lat','Long_','Confirmed','Recovered','Deaths','Active']]
  7. data.columns = ('State','Country','Last Update','Lat','Long','Confirmed','Recovered','Deaths','Active')
  8. data['State'].fillna(value = '', inplace = True)
  9. data

  10. # b. cleaning data
  11. def convert_time(t):
  12.     t = int(t)
  13.     return dt.datetime.fromtimestamp(t)

  14. data = data.dropna(subset = ['Last Update'])
  15. data['Last Update'] = data['Last Update']/1000
  16. data['Last Update'] = data['Last Update'].apply(convert_time)
  17. data
复制代码




举报 使用道具
板凳
内容分析应用 金牌会员 发表于 2021-2-24 10:30:10 | 只看该作者
Step 4 Exploratory Data Analysis and Data Visualization(探索性数据分析和数据可视化)
原文将这一过程分为了三个步骤:
1. 对国家和省进行排名(基于COVID-19方面)
2. COVID-19病例的时间序列
3. 案件分类和分布


举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-24 14:32