5、数据存储格式全解析:从HDF5到SQLite

数据存储格式全解析:从HDF5到SQLite

1. 常见数据格式概述

在数据处理中,我们会遇到多种用于存储表格数据的格式。这些格式大多不会引入新的数据清洁问题,数据类型选项因存储格式而异,但与关系型数据库管理系统(RDBMS)相关的常见问题对它们同样适用。主要来说,这些格式只是需要不同的API来访问底层数据,且都按列提供数据类型。

常见的数据格式有:
- HDF5和NetCDF :二者密切相关且基本可互操作,能存储多个数组,每个数组都有相关元数据,支持高维数据,而非仅二维表格数组。数组类型单一,同一对象中不能存储文本列和数字列,也不能存储不同位宽的数字列,但同一文件可包含多个数组。
- SQLite :一种文件格式,可在单个文件中提供关系型数据库,可能包含多个表。应用广泛,从iOS和Android设备到大型超级计算机集群都有使用。Python标准库提供了其接口,几乎所有编程语言都有相应接口。
- Apache Parquet :面向列的数据存储方式,用于将数据帧或表格存储到磁盘,优化了按列而非按行进行向量化的常见操作。
- MariaDB :MySQL的分支,由MySQL创建者Monty Widenius创建。2009年Oracle收购MySQL后,出于知识产权自由的考虑而开发。设计和功能与MySQL相似,但自分支后一些高级功能有所不同。

1.1 其他二进制数据格式

除上述格式外,还有一些广泛使用的二进制数据格式:
- Feather(和A

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值