快捷导航
我采用微博关键词搜索采集工具采集了10天来“复旦”这个词的搜索结果。
复旦.png
接下来,我想在Jupyter Notebook中画一下发布微博数量的走势图,我参看这篇《情感分析结果怎样用Jupyter Notebook生成走势图等图表》,但是读取原始内容表这里就看不懂了。
  1. df_file_source['发布日期'] = df_file_source['发布日期'].apply(lambda x:x[:6].tolist()
复制代码
1,lambda 是什么?
2,x:x[:6]这表示什么?
3,这条语句总体是什么意思?



举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 前天 09:07

内容分析应用 金牌会员 发表于 3 天前 | 显示全部楼层
本帖最后由 内容分析应用 于 2021-6-11 10:32 编辑

一.关于lambda
lambda函数python中的匿名函数,有如下特点:
1. lambda函数是匿名的:所谓匿名函数,通俗地说就是没有名字的函数。lambda函数没有名字。
2. lambda函数有输入和输出:输入是传入到参数列表argument_list的值,输出是根据表达式expression计算得到的值。
3. lambda函数一般功能简单:单行expression决定了lambda函数不可能完成复杂的逻辑,只能完成非常简单的功能。由于其实现的功能一目了然,甚至不需要专门的名字来说明。

二. x:x[:6]是什么意思

x是入参, 在《情感分析结果怎样用Jupyter Notebook生成走势图等图表》中, 就是要处理的字段, 代表“发布日期”这个字段
x[:6]是python的切片用法, 就是取x的前6个字符。 在《情感分析结果怎样用Jupyter Notebook生成走势图等图表》中, 就是返回“5月23日”这样的日期

三. 这行语句的执行效果
df_file_source['发布日期'] = df_file_source['发布日期'].apply(lambda x:x[:6].tolist()
就是把pandas dataframe的“发布日期”字段替换为前6个字符
比如:原值是“05月23日 12:11:06" , 经过上面这行语句处理, 就变成了“05月23日“
后续就可以根据日期来进行各种聚合统计和画各种走势图

知乎上有篇文章,是讨论python lambda的:关于Python中的lambda,这可能是你见过的最完整的讲解

举报 使用道具
发誓学好内容分析 高级会员 发表于 3 天前 | 显示全部楼层
pandas的dataframe这条语句似乎不是就地修改这个df,因为修改以后,打印前面10条看到的列名还是没有变
rename.png

rename后.png

举报 使用道具
Fuller 管理员 发表于 3 天前 | 显示全部楼层
发誓学好内容分析 发表于 2021-6-11 17:21
pandas的dataframe这条语句似乎不是就地修改这个df,因为修改以后,打印前面10条看到的列名还是没有变

是的,不是就地修改,所以要用这样的语句 df = df.rename(xxxx)
就地修改.png

举报 使用道具
发誓学好内容分析 高级会员 发表于 3 天前 | 显示全部楼层
微博采集工具箱导出的数据中,如果字段是空的,在Pandas的dataframe中显示为NaN,如果把这个dataframe另存到另一个excel,字段就对不齐了。这个怎么解决?能用替换的方法吗?

NaN.png

举报 使用道具
gz51837844 管理员 发表于 前天 09:07 | 显示全部楼层
发誓学好内容分析 发表于 2021-6-11 17:28
微博采集工具箱导出的数据中,如果字段是空的,在Pandas的dataframe中显示为NaN,如果把这个dataframe另存 ...

可以在保存的时候,用参数 na_rep 指定以什么值来替换NaN.
举例:
1. 以减号"-"来替换NaN
  1. df.to_excel('test2.xlsx',sheet_name='sheet1', na_rep='-')
复制代码
2. 以"空值"来替换NaN
  1. df.to_excel('test2.xlsx',sheet_name='sheet1', na_rep='空值')
复制代码
3. 以"NA"来替换NaN
  1. df.to_excel('test2.xlsx',sheet_name='sheet1', na_rep='NA')
复制代码





举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 如何使用快捷采集-以安居客房源采集为例
  • 2020年(第七届)全国大学生统计建模大赛优
  • 基于新浪微博评论数据的消费券政策效果评估
  • 基于微博评论的数据分析-智媒语境下网民对A
  • 基于文本挖掘的北京市旅游目的地感知形象研

热门用户

GMT+8, 2021-6-14 14:07