【Python】进阶学习：pandas–groupby()用法详解

【Python】进阶学习：pandas–groupby()用法详解

个人主页：高斯小哥
高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~
创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）

文章目录

一、为什么需要groupby()？
二、groupby()的基本用法
三、聚合运算
️ 四、高级用法与技巧
- 应用自定义函数
- 数据转换
- 过滤数据
️ 五、实际案例应用
六、总结
七、期待与你共同进步

欢迎来到Python进阶学习之旅！今天，我们将深入探讨pandas库中非常强大的groupby()函数。groupby()函数在数据分析和数据清洗中发挥着关键作用，能够帮助我们轻松地对数据进行分组、聚合和转换。

一、为什么需要groupby()？

在处理大量数据时，我们经常需要按照某个或多个特征对数据进行分组，以便更好地理解数据的结构和关系。例如，我们可能希望按照年份、地区或产品类别对数据进行分组，并对每个组进行聚合运算，如求和、平均值、最大值等。这时，groupby()函数就显得非常有用。

二、groupby()的基本用法

首先，我们需要导入pandas库，并创建一个示例数据集。然后，我们可以使用groupby()函数按照指定的列对数据进行分组。

import numpy as npimport pandas as pd# 创建一个简单的DataFramedata = {'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],'C': np.random.randn(8),'D': np.random.randn(8)}df = pd.DataFrame(data)# 使用groupby按列'A'进行分组grouped = df.groupby('A')# 打印分组后的GroupBy对象print(grouped)

输出：

上述代码将按照列’A’的值对DataFrame进行分组，并返回一个GroupBy对象。我们可以进一步对这个对象进行聚合运算。

三、聚合运算

GroupBy对象提供了多种聚合函数，如sum()、mean()、max()等。我们可以使用这些函数对每个组进行聚合运算。

import numpy as npimport pandas as pd# 创建一个简单的DataFramedata = {'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],'C': np.random.randn(8),'D': np.random.randn(8)}df = pd.DataFrame(data)# 使用groupby按列'A'进行分组grouped = df.groupby('A')# 打印分组后的对象print(grouped)# 计算每个组的平均值mean_grouped = grouped.mean()print(mean_grouped)# 计算每个组的总和sum_grouped = grouped.sum()print(sum_grouped)

输出：

C DAbar0.658173 -0.225388foo0.778100 -0.164148 C DA bar1.97452 -0.676164foo3.89050 -0.820740

除了内置的聚合函数外，我们还可以使用agg()函数应用自定义的聚合函数。例如，我们可以计算每个组的标准差：

import numpy as npimport pandas as pd# 创建一个简单的DataFramedata = {'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],'C': np.random.randn(8),'D': np.random.randn(8)}df = pd.DataFrame(data)# 使用groupby按列'A'进行分组grouped = df.groupby('A')# 打印分组后的对象print(grouped)# 计算每个组的标准差std_grouped = grouped.agg(np.std)print(std_grouped)

输出：

C DAbar0.1012290.274698foo0.9965970.812362

️ 四、高级用法与技巧

除了基本的分组和聚合操作外，groupby()还提供了许多高级功能，如应用自定义函数、转换数据等。

应用自定义函数

我们可以使用apply()方法应用自定义函数到每个组。例如，我们可以定义一个函数来计算每个组的最大值和最小值之差：

import numpy as npimport pandas as pd# 创建一个简单的DataFramedata = {'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],'C': np.random.randn(8),'D': np.random.randn(8)}df = pd.DataFrame(data)# 使用groupby按列'A'进行分组grouped = df.groupby('A')# 打印分组后的对象print(grouped)# 定义一个自定义函数，计算每个组的最大值和最小值之差def range_diff(group):return group.max() - group.min()# 使用apply()应用自定义函数diff_grouped = grouped.apply(range_diff)print(diff_grouped)

输出：

C DAbar2.4976951.086924foo2.8265182.063781

数据转换

groupby()还提供了transform()方法，用于将聚合运算的结果广播到原始数据的每一行。这在数据转换中非常有用。

import numpy as npimport pandas as pd# 创建一个简单的DataFramedata = {'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],'C': np.random.randn(8),'D': np.random.randn(8)}df = pd.DataFrame(data)# 使用groupby按列'A'进行分组grouped = df.groupby('A')# 打印分组后的对象print(grouped)# 使用transform()方法将每个组的平均值广播到原始数据的每一行mean_transformed = grouped['C'].transform('mean')print(mean_transformed)# 将转换后的平均值添加到原始DataFrame中df['C_mean'] = mean_transformedprint(df)

输出：

00.3448761 -1.35876020.3448763 -1.35876040.3448765 -1.35876060.34487670.344876Name: C, dtype: float64 A C DC_mean0foo0.783914 -1.0272880.3448761bar -2.072893 -0.972087 -1.3587602foo0.035637 -0.3159080.3448763bar -1.9530680.409697 -1.3587604foo0.576048 -0.2582890.3448765bar -0.050318 -1.115734 -1.3587606foo0.0934560.1062270.3448767foo0.2353221.3651500.344876

过滤数据

除了聚合和转换外，我们还可以使用filter()方法根据条件过滤出满足条件的组。

import numpy as npimport pandas as pd# 创建一个简单的DataFramedata = {'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],'C': np.random.randn(8),'D': np.random.randn(8)}df = pd.DataFrame(data)# 使用groupby按列'A'进行分组grouped = df.groupby('A')# 打印分组后的对象print(grouped)# 使用filter()方法过滤出满足条件的组（例如，组的大小大于3）filtered_groups = grouped.filter(lambda x: len(x) > 3)print(filtered_groups)

输出：

 A C D0foo1.9672170.0059762foo0.9501490.0981434foo0.5681011.4615876foo -1.905337 -1.1065917foo -0.1686860.692850

️ 五、实际案例应用

最后，让我们通过一个实际案例来演示如何应用groupby()函数进行数据分析和清洗。

假设我们有一个包含销售数据的DataFrame，其中包含日期、地区、产品名称、销售额等列。我们希望按地区和产品名称对数据进行分组，并计算每个组的总销售额。

import numpy as npimport pandas as pd# 创建一个包含销售数据的DataFramesales_data = {'date': pd.date_range(start='2023-01-01', periods=100),'region': np.random.choice(['North', 'South', 'East', 'West'], size=100),'product': np.random.choice(['Product A', 'Product B', 'Product C'], size=100),'sales': np.random.rand(100) * 1000}df_sales = pd.DataFrame(sales_data)# 按地区和产品名称对数据进行分组，并计算总销售额grouped_sales = df_sales.groupby(['region', 'product'])['sales'].sum().reset_index()# 打印分组后的销售额print(grouped_sales)

输出：

 regionproductsales0EastProduct A2728.6794321EastProduct B1847.9667302EastProduct C4518.3567633 NorthProduct A5882.3745314 NorthProduct B5519.3641965 NorthProduct C4229.9538526 SouthProduct A5303.7844257 SouthProduct B2321.0806828 SouthProduct C4239.0021679WestProduct A1689.65051310 WestProduct B4002.79086711 WestProduct C4894.553548

在这个案例中，我们首先创建了一个包含销售数据的DataFrame。然后，我们使用groupby()函数按地区和产品名称对数据进行分组，并使用sum()函数计算每个组的总销售额。最后，我们使用reset_index()函数将结果转换为一个新的DataFrame，并打印出来。

六、总结

groupby()函数是pandas库中一个非常强大的工具，它允许我们按照一个或多个特征对数据进行分组，并对每个组进行聚合、转换和过滤操作。通过熟练掌握groupby()函数的用法，我们可以更高效地处理和分析大量数据，从而洞察数据的内在结构和关系。希望这篇博客能够帮助你更好地理解和应用groupby()函数！

七、期待与你共同进步

亲爱的读者，非常感谢你每一次的停留和阅读！你的支持是我们前行的最大动力！

在这茫茫网海中，有你的关注，我们深感荣幸。你的每一次点赞、收藏、评论和关注，都像是明灯一样照亮我们前行的道路，给予我们无比的鼓舞和力量。

我们会继续努力，为你呈现更多精彩和有深度的内容。同时，我们非常欢迎你在评论区留下你的宝贵意见和建议，让我们共同进步，共同成长！

无论你在编程的道路上遇到什么困难，都希望你能坚持下去，因为每一次的挫折都是通往成功的必经之路。我们期待与你一起书写编程的精彩篇章！

最后，再次感谢你的厚爱与支持！愿你在编程的道路上越走越远，收获满满的成就和喜悦！祝你编程愉快！

【Python】进阶学习：pandas–groupby()用法详解

文章目录

一、为什么需要groupby()？

二、groupby()的基本用法

三、聚合运算

️ 四、高级用法与技巧

应用自定义函数

数据转换

过滤数据

️ 五、实际案例应用

六、总结

七、期待与你共同进步

最新关注

热文推荐

架构重构实践心得

ARM架构与编程 · 基于IMX6ULL

基于Java web的住院管理系统论文

MySQL中的不等于

【云原生 • Kubernetes】k8s功能特性、k8s集群架构介绍

网络层协议 ——— IP协议

【Python】进阶学习：pandas–groupby()用法详解

文章目录

一、为什么需要groupby()？

二、groupby()的基本用法

三、聚合运算

️ 四、高级用法与技巧

应用自定义函数

数据转换

过滤数据

️ 五、实际案例应用

六、总结

七、期待与你共同进步

相关文章

最新关注

热文推荐