之前有个帖子:想用爬虫软件爬取微博话题-博士当辅导员是屈才吗, 并且做情感分析

记录了网页抓取工具采集到的数据,导入到集搜客文本分词和情感分析软件

生成的数据表中有个词频统计表。我就用Jupyter Notebook的pandas来读取这个词频统计表, 然后做一些查询统计练习,以跟帖的形式记录下来。



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 11 个关于本帖的回复 最后回复于 2021-3-3 17:29

沙发
马涌河畔 金牌会员 发表于 2021-3-3 10:45:07 | 只看该作者
原文件是这个:
首先在Jupyter Notebook中把文件导入
  1.     import pandas as pd
  2.     df = pd.read_excel('博士当辅导员_词频表_20210303091849990.xlsx')
复制代码




本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
板凳
马涌河畔 金牌会员 发表于 2021-3-3 11:12:14 | 只看该作者
本帖最后由 马涌河畔 于 2021-3-3 17:04 编辑

先看一下有几行几列, 查看下前5行数据和后5行数据:
  1. #查询有几行几列
  2. df.shape

  3. #显示前5行
  4. df.head(5)

  5. #显示后5行
  6. df.tail(5)
复制代码




本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
地板
马涌河畔 金牌会员 发表于 2021-3-3 11:33:27 | 只看该作者
  1. #查询词频数大于80的记录
  2. df.loc[df['词频'] > 80]
复制代码



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
5#
马涌河畔 金牌会员 发表于 2021-3-3 11:49:20 | 只看该作者
按某一列的值group by之后做统计
  1. #按词性分别统计对应的标签词个数
  2. df.groupby(["词性"], as_index=False)['标签词'].count()
复制代码



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
6#
Fuller 管理员 发表于 2021-3-3 15:34:30 | 只看该作者
马涌河畔 发表于 2021-3-3 11:49
按某一列的值group by之后做统计

每一种表的数据探索的notebook能不能共享一下?
举报 使用道具
7#
马涌河畔 金牌会员 发表于 2021-3-3 15:40:51 | 只看该作者
Fuller 发表于 2021-3-3 15:34
每一种表的数据探索的notebook能不能共享一下?

这是上面实验的notebook文件:

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
8#
王建国 高级会员 发表于 2021-3-3 16:18:46 | 只看该作者

要放在哪个目录下才能将数据导入呢?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
9#
马涌河畔 金牌会员 发表于 2021-3-3 16:43:47 | 只看该作者
王建国 发表于 2021-3-3 16:18
要放在哪个目录下才能将数据导入呢?

上面那个.ipynb里,是读取当前目录下的excel文件(也就是Jupyter notebook定义的根目录下),不过这样不好管理, 我准备按这篇文档的目录结构做修改:《Jupyter Notebook在机器学习领域的项目目录结构规划》


举报 使用道具
10#
王建国 高级会员 发表于 2021-3-3 16:48:05 | 只看该作者
本帖最后由 王建国 于 2021-3-3 16:54 编辑
马涌河畔 发表于 2021-3-3 16:43
上面那个.ipynb里,是读取当前目录下的excel文件(也就是Jupyter notebook定义的根目录下),不过这样不好 ...
  1. import pandas as pd
  2. data_path="D:/08浏览器下载/博士当辅导员_词频表_20210303091849990/博士当辅导员_词频表_20210303091849990.xlsx"
  3. df = pd.read_excel(data_path)
  4. print(df)
复制代码
我用这段代码导入了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-11-18 16:46