Python稀疏矩阵实战：COO、CSR、CSC格式在Scipy中的性能对比（附代码）

最新推荐文章于 2026-06-22 19:41:49 发布

原创

最新推荐文章于 2026-06-22 19:41:49 发布 · 171 阅读

标签

#稀疏矩阵 #Python #Scipy #性能优化

Python稀疏矩阵实战：COO、CSR、CSC格式在Scipy中的性能对比（附代码）

在处理大规模数据时，比如社交网络的关系图、推荐系统中的用户-物品交互矩阵，或者自然语言处理中的词项-文档矩阵，我们常常会遇到一个令人头疼的问题：矩阵里绝大部分元素都是零。想象一下，一个百万乘以百万的矩阵，如果每个元素都存下来，需要近8TB的内存，这显然不现实。但如果我们只记录那些非零的“活跃”元素，内存占用可能瞬间降到几百兆。这就是稀疏矩阵的魅力所在，它不仅仅是节省内存，更是高效计算的关键。

然而，选择哪种方式来“打包”这些非零元素，却是一门学问。在Python的SciPy生态中，我们最常打交道的三种格式是COO、CSR和CSC。很多开发者可能只是模糊地知道“CSR适合行操作，CSC适合列操作”，但在真实的项目里，这种模糊的认知往往会导致性能瓶颈。比如，你辛辛苦苦用COO格式构建了一个大矩阵，却在频繁的矩阵乘法上栽了跟头；或者，你用CSR格式处理一个需要大量列切片的数据集，结果发现速度慢得令人发指。

这篇文章，我们就来一次彻底的实战剖析。我会结合具体的代码和性能测试数据，带你深入理解这三种格式的内在机制，并告诉你，在不同的应用场景下，究竟该如何做出最明智的选择。我们不止步于理论，更关注如何将这些知识落地到你的代码中，真正提升计算效率。

1. 深入解析三种核心存储格式：不只是名字不同

要做出正确的选择，首先得明白它们到底是怎么“存”数据的。这不仅仅是数据结构的不同，更直接决定了后续所有操作的性能天花板。

1.1 COO：构建阶段的“脚手架”

COO格式，全称坐标格式，它的思想最为朴素直接。你可以把它想象成一个记事本，为每一个非零元素记录下它的“门牌号”（行索引、列索引）和“住户信息”（值）。

import numpy as np
from scipy.sparse import coo_matrix

# 假设我们有一个4x4的矩阵，只有几个非零元素
data = np.array([1, 7, 2, 8, 5, 3, 9, 6, 4])  # 非零元素的值
row  = np.array([0, 0, 1, 1, 2, 2, 2, 3, 3])  # 对应的行索引
col  = np.array([0, 1, 1, 2, 0, 2, 3, 1, 3])  # 对应的列索引

coo_mat = coo_matrix((data, (row, col)), shape=(4, 4))
print("COO矩阵的密集表示：")
print(coo_mat.toarray())

运行上面的代码，你会得到一个清晰的矩阵。COO内部就是维护着这三个等长的数组。它的优势非常突出：

构建极其灵活：你可以以任意顺序添加非零元素，甚至重复添加同一位置（SciPy默认会求和），这在从不规则数据源（如边列表）构建矩阵时非常方便。
结构简单直观：调试和理解起来几乎没有门槛。

但它的缺点同样明显：

内存开销大：每个非零元素都需要存储一对完整的(row, col)索引。
按行/列访问效率低：由于元素存储是无序的，要找到某一行的所有元素，需要遍历整个row数组，时间复杂度是O(nnz)（nnz是非零元素个数）。

注意：COO格式在SciPy中不支持直接的算术运算（如加法、乘法）和切片操作。它主要是一个高效的中间格式或输入格式。你通常会用COO快速构建矩阵，然后转换为CSR或CSC进行实际计算。

1.2 CSR：为行操作而生的“加速器”

CSR格式，即压缩稀疏行格式，是解决COO行访问效率低下的产物。它通过引入一个“行指针”数组，对行索引进行了压缩。

from scipy.sparse import csr_matrix

# 使用同样的数据创建CSR矩阵
csr_mat = csr_matrix((data, (row, col)), shape=(4, 4))
# 或者从COO转换
csr_mat_from_coo = coo_mat.tocsr()

print("CSR矩阵的indptr（行指针）:", csr_mat.indptr)
print("CSR矩阵的indices（列索引）:", csr_mat.indices)
print("CSR矩阵的data（数据）:", csr_mat.data)

理解CSR的三个数组是关键：

data和indices：与COO中的data和col数组一一对应，存储了所有非零元素的值和其所在的列索引。
indptr（行指针）：这个数组的长度是行数+1。indptr[i]和indptr[i+1]定义了第i行的所有非零元素在data和indices数组中的起始和结束位置（左闭右开区间）。

以indptr = [0, 2, 4, 7, 9]为例：

第0行（i=0）：非零元素在data[0:2]，列索引在indices[0:2]。
第1行（i=1）：非零元素在data[2:4]，列索引在indices[2:4]。
以此类推。

这种设计带来了巨大的优势：

高效的行遍历和行切片：要访问第i行的所有元素，只需通过indptr[i]和indptr[i+1]直接定位，时间复杂度是O(该行非零元素数)。
极快的稀疏矩阵-向量乘法（SpMV）：这是科学计算和图计算中的核心操作。CSR格式可以高效地按行计算点积。
内存更优：相比COO，它节省了存储重复行索引的空间。

1.3 CSC：列操作的“镜像战士”

CSC是CSR的列版本，原理完全对称。它压缩的是列索引，并提供一个列指针数组。

from scipy.sparse import csc_matrix

csc_mat = csc_matrix((data, (row, col)), shape=(4, 4))
print("CSC矩阵的indptr（列指针）:", csc_mat.indptr)
print("CSC矩阵的indices（行索引）:", csc_mat.indic

最低0.47元/天解锁文章