python groupby与agg的使用方法

2023-01-18 18:37:59

import pandas as pd
import numpy as np

df = pd.DataFrame({'key1':['a', 'a', 'b', 'b', 'a'],
                    'key2':['one', 'two', 'one', 'two', 'one'],
                    'data1':np.random.randint(1,10,size=5),#返回5个1到10之间的整数,[1,10)
                    'data2':np.random.randint(1,8,size=5)})
df

得到df如下：

  key1 key2  data1  data2
0    a  one      4      7
1    a  two      1      1
2    b  one      8      6
3    b  two      2      2
4    a  one      5      2

一、对单列进行计算

计算后再重命名，推荐这种方法

#对单列进行计算
df_temp = df.groupby(['key1','key2']).agg({'data1':'min'})
#对data1列，计算分组后的最小值，名字还是data1，因此需要重命名
df_temp.rename(columns={'data1':'data1_min'},inplace=True)#修改列名
print(df_temp)

输出结果如下：

           data1_min
key1 key2           
a    one           4
     two           1
b    one           8
     two           2

二、对多列进行计算

#以多列进行计算
df_temp = df.groupby(['key1','key2']).agg({'data1':'min','data2':'max'})
df_temp.rename(columns={'data1':'data1_min','data2':'data2_max'},inplace=True)#修改列名
print(df_temp)

输出结果如下：

           data1_min  data2_max
key1 key2                      
a    one           4          7
     two           1          1
b    one           8          6
     two           2          2

三、对多列进行多个计算

df_temp2 = df.groupby(['key1','key2']).agg({'data1':['min','max'],'data2':['max','count']})#对data1列，取各组的最小值，名字还是data1
print(df_temp2)
df_temp2.columns = [i[0] + "_" + i[1] for i in df_temp2.columns] # 注意重命名方式
print(df_temp2)

输出结果如下：

          data1     data2      
            min max   max count
key1 key2                      
a    one      1   2     2     2
     two      2   2     2     1
b    one      2   2     1     1
     two      2   2     1     1
           data1_min  data1_max  data2_max  data2_count
key1 key2                                              
a    one           1          2          2            2
     two           2          2          2            1
b    one           2          2          1            1
     two           2          2          1            1

参考：pandas——很全的groupby、agg，对表格数据分组与统计

作者：一直在路上ing
原文链接：https://blog.csdn.net/jwtning/article/details/107759838
更新时间：2023-01-18 18:37:59

相关文章

@override注解可以不写吗
可以不写，但是不写会有坏处，不利于编译器帮助检查错误1、@override注解是告诉编译器，下面的方法是重写父
2022-08-20

python+selenium实现Web自动化：PO模型，PageObject模式！
一、前言最近问我自动化的人确实有点多，个人突发奇想：想从0开始讲解python+selenium实现Web自动
2022-08-20

Mybatis plus - 映射字段时排除不必要的字段，忽略字段
文章目录Mybatis plus - 映射字段时排除不必要的字段，忽略字段1、声明该字段是 transient
2022-08-20

SpringBoot框架中redis序列化
在SpringBoot框架中进行redis访问的时候，发现写入redis中的数据产生了乱码，是因为没有对对象数
2022-08-20

随机文章

线程池+CountDownLatch高并发详解
今天和大家分享的是：在开发服务端API时候，如何合理的运用线程池+CountDownLatch来保证API的高
2022-06-14

SpringCloud负载均衡服务调用详解
文章目录1 Ribbon1.1 Ribbon概述1.2 替换不同的负载策略1.3 轮询策略分析2 OpenFe
2022-06-14

java并发包中CountDownLatch和线程池的使用
1.CountDownLatch现在做的这个华为云TaurusDB比赛中，参考的之前参加过阿里的PolarDB
2022-06-14

Spring之@Async异步注解
1.注解介绍@Async注解，该注解可以被标注在方法上，以便异步地调用该方法。调用者将在调用时立即返回，方法的
2022-06-14

文章导航

热门标签

VPN BGP 华为 DHCP 组播 ISIS NAT 交换机 H3C 交换 TCP RADIUS LDP 链路聚合网络工程师小助手路由 QOS IPV6 IGMP CCNA视频教程 MPLS Vlan STP Wireshark PIM BGP选路 LACP IP GPON OSPF

最新文章

PHP范围解析运算符（：:)
介绍在PHP中，双冒号::定义为Scope Resolution Operator。
2023-11-18

完全删除数组中的多余元素-JavaScript
我们需要编写一个函数，该函数接受一个数组并返回一个新数组，该数组已删除了所有重复值。
2023-11-18

在不使用库函数的情况下使用真实/伪造的值展平数组-JavaScript
我们需要编写一个JavaScript数组函数，该函数接受具有伪造值的嵌套数组，并返回
2023-11-18

JavaScript在数组的伪索引处插入元素方法详解
我们需要编写一个Array函数，比如pushAtFalsy()，该函数应该包含一个数
2023-11-18

PHP整数数据类型
定义和用法在PHP中，Integer是标量数据类型，代表数字常量，代表整数，不带任何
2023-11-18

PHP错误控制运算符
介绍在PHP中，将@符号定义为错误控制运算符。当它以任何表达式为前缀时，PHP解析器
2023-11-18

PHP类型杂耍详解
定义和用法PHP被称为动态类型语言。在PHP中既不需要也不支持变量的显式类型声明。与
2023-11-18

PowerShell版本7中引入了哪些新的Null运算符？
PowerShell版本7引入了一些新的空运算符。它们如下。空合并运算符-??空条件
2023-11-18

PowerShell中$ ErrorView的用途是什么？
$Errorview变量确定PowerShell中错误消息的显示格式。在PowerS
2023-11-18

PHP执行运算符
介绍PHP中定义了一个执行运算符。一个字符串内部背蜱S（``）被视为一个DOS命令（
2023-11-18

Copyright © 2022 忙忙碌碌网
把实用的技术和经验，分享给最需要的读者，希望每一位来访的朋友都能有所收获！

文章目录