Python处理数据常见问题解决方案 Dataframe使用 append()添加大量数据时效率变低，处理时间过长，无法接受。

2022-07-19 07:59:30

问题描述：

在用python给dataframe添加数据的过程中，我们经常使用append()方法往dataframe中一行一行的添加数据。但是当数据过多时，append()方法效率变得地下。近期我需要处理350,000行的数据，需要对其中的每一行做处理，组装成新的一行，再使用append()把新组装的一行添加至新的dataframe。

在MacBook上用Pycharm运行了8个小时，只执行了append()约110,000行，这个速度是无法接受的。所以需要找到一种更快的组装dataframe的方法。

以下同样添加300,000行数据至dataframe中，案例一是原始方法，案例二是改进后的方法。

案例一、失败，耗时，耗内存，随着数据增加，速度慢得不能接受：

总耗时约30分钟：

import pandas as pd
from datetime import datetime
import random

column_name = ['a', 'b', 'c', 'd']
test_df = pd.DataFrame(columns=column_name)

start_time = datetime.now()
for index in range(0, 300000):
    print(index)
    test_df=test_df.append({'a':random.randint(0, 9), 'b':random.randint(0, 9), 'c':random.randint(0,

作者：查理斯韦
原文链接：https://blog.csdn.net/weixin_42132740/article/details/113342768
更新时间：2022-07-19 07:59:30

相关文章

如何在多GPU上训练PyTorch模型
深度学习模型的最大问题之一是它们经常很大，往往无法在单个GPU中进行训练。PyTorch构建了两种在多个GPU
2022-10-24

python进制转换函数-Python中进制转换函数的使用
Python中进制转换函数的使用关于Python中几个进制转换的函数使用方法，做一个简单的使用方法的介绍，我们
2022-10-24

python文件去重算法_使用Python检测文章抄袭及去重算法原理解析
在互联网出现之前，“抄”很不方便，一是“源”少，而是发布渠道少；而在互联网出现之后，“抄”变得很简单，铺天盖地
2022-10-24

numpy.linalg学习
①矩阵和向量积两个数组点积：numpy.dot(a, b, out=None)①a、b都是常量或一维数组，则返
2022-10-24

随机文章

SpringCloudAlibaba（三）Nacos Discovery--服务治理
3.1 服务治理介绍先来思考一个问题通过上一章的操作，我们已经可以实现微服务之间的调用。但是我们把服务提供
2022-11-21

Maven对Springboot项目配置文件、依赖分离打包
Springboot项目配置文件、依赖分离打包(一)使用maven-assembly-plugin进行配置分离
2022-11-21

SpringBoot 声明式事务
声明式事务是通过AOP的CGLib代理，例如添加一个DataSourceTransactionManager事
2022-11-21

RabbitMQ_Windows系统下安装RabbitMQ详细教程
在安装RabbitMQ之前，需要先确认当前计算机上是否安装了Erlang（RabbitMQ的运行需要Erlan
2022-11-21

文章导航