1. PEMS-BAY数据集简介
PEMS-BAY是加州交通局(Caltrans)性能测量系统采集的湾区交通数据集,包含2017年1月至6月期间325个传感器的交通速度数据。这个数据集在交通预测、时空数据建模等领域应用广泛,特别适合初学者学习交通数据处理的基础技能。
我第一次接触这个数据集时,发现它的数据结构非常典型:时间序列数据+空间位置信息。这种结构在实际业务场景中很常见,比如智能交通系统、物流调度等领域都会用到类似数据。数据集采用HDF5格式存储,这种格式特别适合存储大规模科学数据,读取效率比CSV等文本格式高得多。
2. 数据读取与结构解析
2.1 准备Python环境
在开始前需要安装必要的Python库:
pip install h5py pandas numpy
读取数据时我推荐使用h5py库,它比pandas直接读取HDF5更灵活。下面是读取数据的完整代码:
import h5py
import pandas as pd
file_path = 'pems-bay.h5'
with h5py.File(file_path, 'r') as f:
print(list(f.keys())) # 查看顶层组
2.2 理解数据结构
数据集主要包含三个关键部分:
- 传感器ID:
speed/axis0,包含325个传感器的唯一标识符 - 时间戳:
speed/axis1,包含52116个时间点(5分钟间隔) - 速度值:
speed/block0_values,形状为(52116, 325)的矩阵
我刚开始使用时容易混淆axis0


3594

被折叠的 条评论
为什么被折叠?



