简单理解parquet文件格式——按列存储和元数据存储

2022-09-07 14:06:32

简介

Apache Parquet是一种常见的列式存储文件格式，常用于Pig, Spark, Hive等大数据组件中，其后缀是.parquet。

核心特点有：

跨平台
可被各种文件系统识别的格式
按列存储数据
存储元数据

下面详细介绍第3、4个特点。

列式存储

假设有以下数据表：

#>      id name    age#>   <int> <chr> <dbl>#> 1     1 n1       20#> 2     2 n2       35#> 3     3 n3       62

如果存储为csv格式，即按行存储，那么：

按行的查询效率就很高。
在末尾追加一行效率也很高。

如：

SELECT*FROM table_nameWHERE id==2

只需要找到第2行，把这一行所有数据取出来即可。

但是，如果想对age列求和，效率就低了，需要遍历每一行，从每行中找出哪个值是年龄。

Parquet 使用列式存储，形式如下：

123
n1 n2 n3203562

这时想对age列求和，只需要把最后一行的值加起来即可，效率很高。

但相对的，按行的查询效率就低了。

存储元数据（数据压缩）

由于parquet是按列存储的, 相同格式的数据存储在一起，就有了很大优化空间。

Run Length Encoding

假设某列只包含某一个重复值，只需记录“值x重复了n次”。

如果包含了多个重复值，只需要添加一个查找表即可。

如一列数据：

4444412222

可以存储为：

4, 重复5次1, 重复1次2, 重复4次

Dictionary Encoding

假设有一列字符串：

"Jumping Rivers""Jumping Rivers""Jumping Rivers"

只需要把"Jumping Rivers"用0表示，再存储0到"Jumping Rivers"的映射关系：

0000->"Jumping Rivers"

比如存储10^6个"Jumping Rivers"，parquet只需要1.09K，而csv需要14.31M。

Delta Encoding

这种编码主要用于存储timestamps。时间戳是1970年1月1日以来经过的秒数，如：

"2021-09-21 17:05:08 BST"

表示为：

1632240309

其实不需要记录这么大的数字，只需要记录和最小时间戳的差值即可，如：

162842607416284260781628426080

记录为：

即可。

其它编码

详见https://github.com/apache/parquet-format/blob/master/Encodings.md

参考

Understanding the Parquet file format

作者：zhang35
原文链接：https://blog.csdn.net/zhang35/article/details/122284903
更新时间：2022-09-07 14:06:32

相关文章

PyTorch - 03 - CUDA之解释：为什么深度学习使用GPU？
PyTorch - 03 - CUDA之解释：为什么深度学习使用GPU？为什么深度学习和神经网络使用GPUGr
2022-10-03

PyTorch学习—20.模型的微调（Finetune）
文章目录引言一、Transfer Learning & Model Finetune二、PyTorch
2022-10-03

Mysql 导入数据慢的解决方法
在导入MySQL 数据的时候，数据量较大的情况下比较慢。。。尝试一下方式会提高导入速度找到 my.cnf 文
2022-10-03

PyTorch - 34 - 在GPU上进行PyTorch - 使用CUDA训练神经
Welcome to deeplizard. My name is Chris. In this episod
2022-10-03

随机文章

MyBatis入门系列(25) -MyBatis-Spring核心之@MapperS
注册映射器在使用Mybatis中，我们需要将Mapper接口注册到Spring中，这叫注册映射器。注册映射器的
2023-04-26

C++的五大内存分区
一、五大内存分区在C++中，内存分成5个区，他们分别是堆、栈、自由存储区、全局/静态存储区和常量存储区。
2023-04-26

podman容器自启动
podman容器自启动创建一个容器使用generate创建自启动服务格式创建kube格式的自启动文件创建sys
2023-04-26

mybatis数据加解密
<sql id="getKey"> '${@com.xx.xxx.xx.xx.utils
2023-04-26

文章导航

热门标签

VPN BGP 华为 DHCP 组播 ISIS NAT 交换机 H3C 交换 TCP RADIUS LDP 链路聚合网络工程师小助手路由 QOS IPV6 IGMP CCNA视频教程 MPLS Vlan STP Wireshark PIM BGP选路 LACP IP GPON OSPF

最新文章

PHP范围解析运算符（：:)
介绍在PHP中，双冒号::定义为Scope Resolution Operator。
2023-11-18

完全删除数组中的多余元素-JavaScript
我们需要编写一个函数，该函数接受一个数组并返回一个新数组，该数组已删除了所有重复值。
2023-11-18

在不使用库函数的情况下使用真实/伪造的值展平数组-JavaScript
我们需要编写一个JavaScript数组函数，该函数接受具有伪造值的嵌套数组，并返回
2023-11-18

JavaScript在数组的伪索引处插入元素方法详解
我们需要编写一个Array函数，比如pushAtFalsy()，该函数应该包含一个数
2023-11-18

PHP整数数据类型
定义和用法在PHP中，Integer是标量数据类型，代表数字常量，代表整数，不带任何
2023-11-18

PHP错误控制运算符
介绍在PHP中，将@符号定义为错误控制运算符。当它以任何表达式为前缀时，PHP解析器
2023-11-18

PHP类型杂耍详解
定义和用法PHP被称为动态类型语言。在PHP中既不需要也不支持变量的显式类型声明。与
2023-11-18

PowerShell版本7中引入了哪些新的Null运算符？
PowerShell版本7引入了一些新的空运算符。它们如下。空合并运算符-??空条件
2023-11-18

PowerShell中$ ErrorView的用途是什么？
$Errorview变量确定PowerShell中错误消息的显示格式。在PowerS
2023-11-18

PHP执行运算符
介绍PHP中定义了一个执行运算符。一个字符串内部背蜱S（``）被视为一个DOS命令（
2023-11-18

Copyright © 2022 忙忙碌碌网
把实用的技术和经验，分享给最需要的读者，希望每一位来访的朋友都能有所收获！

文章目录