我用集搜客知乎快捷采集爬取的数据,导出后下载到本地是一个excel表格, 那么我怎样在Jupyter Notebook中导入呢?
比如这个文件:temp_知乎_独立问题所有回复采集_规则_1_li_20210208102726843.xlsx
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2021-7-8 10:56

沙发
内容分析应用 金牌会员 发表于 2021-2-25 09:57:05 | 只看该作者
本帖最后由 内容分析应用 于 2021-2-25 10:15 编辑

我试了一下, 可以这样做:
1. 打开那个知乎的excel文件,另存为csv格式
2. 用记事本打开csv文件, 另存为UTF-8编码
3. 在Jupyter Notebook中用pandas的read_csv就可以打开了
  1. import pandas as pd
  2. df = pd.read_csv('temp_知乎_独立问题所有回复采集_规则_1_li_20210208102726843.csv')
复制代码
如下图所示:



举报 使用道具
板凳
Fuller 管理员 发表于 2021-2-25 10:02:35 | 只看该作者
内容分析应用 发表于 2021-2-25 09:57
我试了一下, 可以这样做:
1. 打开那个知乎的excel文件,另存为csv格式
2. 用记事本打开csv文件, 另存为U ...

pandas竟然是可视化的显示csv表格,看起来很酷。Pandas主要是做什么的?
举报 使用道具
地板
内容分析应用 金牌会员 发表于 2021-2-25 10:12:09 | 只看该作者
Fuller 发表于 2021-2-25 10:02
pandas竟然是可视化的显示csv表格,看起来很酷。Pandas主要是做什么的?

Pandas是一个强大的分析结构化数据的工具集;它的使用基础是Numpy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能。
知乎上关于Pandas的话题挺多的:https://www.zhihu.com/search?type=content&q=pandas


举报 使用道具
5#
Fuller 管理员 发表于 2021-2-25 10:25:25 | 只看该作者
内容分析应用 发表于 2021-2-25 10:12
Pandas是一个强大的分析结构化数据的工具集;它的使用基础是Numpy(提供高性能的矩阵运算);用于数据挖 ...

在Jupyter Notebook中,只输入import pandas就行了?要不要先安装pandas

这是pandas官网,我看还有下载按钮
举报 使用道具
6#
内容分析应用 金牌会员 发表于 2021-2-25 10:53:54 | 只看该作者
Fuller 发表于 2021-2-25 10:25
在Jupyter Notebook中,只输入import pandas就行了?要不要先安装pandas

这是pandas官网,我看还有下载 ...

我安装的是Anaconda3,里面已经包含了Pandas, 就不用单独安装了, 安装了Anaconda3就可以了。
如果你是单独下载安装python3, 那么需要再安装Pandas, 用pip也很简单:
  1. pip install pandas
复制代码




举报 使用道具
7#
Fuller 管理员 发表于 2021-2-25 10:55:38 | 只看该作者
内容分析应用 发表于 2021-2-25 10:53
我安装的是Anaconda3,里面已经包含了Pandas, 就不用单独安装了, 安装了Anaconda3就可以了。
如果你是 ...

那我试试,我也安装了Anaconda,据说是集成化的部署方案
举报 使用道具
8#
内容分析应用 金牌会员 发表于 2021-2-25 16:04:03 | 只看该作者
pandas可以直接读excel文件, 用pandas.read_excel
网络爬虫软件采集导出的excel文件, 就不用另存为csv了, 直接用pandas处理吧

举报 使用道具
9#
Fuller 管理员 发表于 2021-7-8 10:56:51 | 只看该作者
看这篇文章《如何运行数据分析和可视化Jupyter Notebook模板》,讲解了怎样安装anaconda以及运行Jupyter Notebook。这篇文章还罗列了已经发布了的Jupyter Notebook模板,覆盖数据分析各个方面,后面还有很多Jupyter Notebook发布出来
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-23 21:29