利用pandas的chunksize分块处理大型csv文件

最新推荐文章于 2026-03-07 00:13:40 发布

原创

最新推荐文章于 2026-03-07 00:13:40 发布 · 2.1k 阅读

标签

#python #数据分析

收录于

博客介绍了使用Python处理超大CSV文件的方法。由于文件过大无法一次性加载到内存，可利用read_csv中的chunksize参数指定分块大小来读取文件，返回可迭代的TextFileReader对象进行分块处理。

利用pandas的chunksize分块处理大型csv文件

当读取超大的csv文件时，可能一次性不能全部放入内存中，从而无法加载，所以需要分块处理。

在read_csv中有个参数chunksize，通过指定一个chunksize分块大小来读取文件，返回的是一个可迭代的对象TextFileReader

import pandas as pd
''' chunksize:每一块有100行数据  iterator:可迭代对象 '''
reader = pd.read_csv('all_test.csv',chunksize=100,iterator=True)
count = 0

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

jialun0116

关注关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【Pandas总结】第二节 Pandas 的数据读取_pd.read_csv()的使用详解（非常全面，推荐收藏）

热门推荐

weixin_47139649的博客

09-09

11万+

pandas对纯文本的读取提供了非常强力的支持，参数有四五十个。这些参数中，有的很容易被忽略，但是在实际工作中却用处很大。

参与评论您还未登录，请先登录后发表或查看评论

text2vec 如何选择 chunksize 和 splitter？

qq_39967751的博客

06-20

1198

本文基于茴香豆真实数据，给出 text2vec 模型的 chunksize 的上下界，同时提供选择 splitter 和 text2vec 模型的依据。当然本次验证并不全面，仍需覆盖更多领域（如电力）和任务类型（如图文混合检索），我们将进一步探索。需要额外说明的是，为了让机器人“有问必答”、避免太高冷，豆哥源码关注的是 recall 而非 F1，实际阈值会偏低。参考文档。

pandas 读取csv 数据 read_csv 参数详解

qq_27371025的博客

04-14

3226

Pandas 提供了易于使用的数据结构和数据分析工具，特别适用于处理结构化数据，如表格型数据（类似于Excel表格）。 Pandas 主要引入了两种新的数据结构：DataFrame 和 Series。

pandas使用chunksize分块处理大型csv文件

weixin_43790560的博客

03-15

6万+

最近接手一个任务，从一个有40亿行数据的csv文件中抽取出满足条件的某些行的数据，40亿行。。。如果直接使用pandas的read_csv()方法去读取这个csv文件，那服务器的内存是会吃不消的，所以就非常有必要使用chunksize去分块处理。现在就开始讲chunksize的一些使用。 ** 1.本次任务的目标 ** 红框内是时间戳，需要使用pd.to_datetime()函数去将时间戳转换为...

pandas.read_csv——分块读取大文件

I'm zm

05-11

7万+

今天在读取一个超大csv文件的时候，遇到困难：首先使用office打不开然后在python中使用基本的pandas.read_csv打开文件时：MemoryError 最后查阅read_csv文档发现可以分块读取。 read_csv中有个参数chunksize，通过指定一个chunksize分块大小来读取文件，返回的是一个可迭代的对象TextFileReader，IO

【Pandas】chunksize分块处理大型csv文件

coding回忆录

04-27

2655

– 错误的操作导致保存了1TB以上的csv，要对csv重新读取处理，直接使用read_csv()不带任何参数，会把RAM撑爆。 – 所以使用chunksize：不一次性将文件读入内存(RAM)中，而是分多次。官方示例: https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#io-chunking import pandas as pd import time start = time.perf_counter() # calcula

python读取大文件csv_python项目实践分享：使用pandas处理大型CSV文件

weixin_39897449的博客

11-24

952

CSV(Comma Separated Values)作为一种逗号分隔型值的纯文本格式文件，在实际应用中经常用到。如数据库数据的导入导出、数据分析中记录的存储等。因此很多语言都提供了对CSV文件处理的模块。Python也不例外，其模块csv提供了一系列与CSV处理相关的 API。我们先来看一下其中几个常见的API：1.reader(csvfile[,dialect='excel'][, fmtpa...

Python高效读取海量Excel数据的5种实战方案

最新发布

weixin_29091105的博客

03-07

245

本文针对Python处理海量Excel数据时遇到的读取缓慢与内存瓶颈问题，提供了5种实战优化方案。详细介绍了如何利用openpyxl迭代读取、pyxlsb处理二进制格式、Dask进行并行计算、转换为CSV/Parquet格式以及pandas参数调优等技巧，有效提升数据处理效率与内存管理能力。

CSV指南：使用Pandas库分割大型CSV文件

qq_59629101的博客

02-27

3223

处理非常大的CSV文件时，直接操作整个文件可能会非常困难，特别是当文件大小超过了你的计算机内存时。一个常见的解决方案是将大文件分割成多个小文件，这样可以更容易地进行数据处理和分析。

如何读取大型（超1G）的CSV文件到一个DataFrame里面的方法

小白的编码屋

09-13

1万+

这两天掌柜遇到要一次读取多个大型（都基本超过1G）的CSV文件到单个DataFrame里面的操作，这里做个总结，希望对有同样需求的朋友有帮助！下面直接看案例吧???? 除了一个小于1G的csv文件，其余都大于1.3G????。。。好了，现在掌柜要一次读取这10个大型csv文件到DataFrame中。第一种：使用chunksize模块。 ...

pandas 分批次读取大文件---chunkSize

MusicDancing的博客

12-15

3734

当要处理一个较大文件时，一次性加载到内存可能导致内存溢出，pandas提供了一种以迭代器的方式读取文件，我们可以手动设置每个批次要读取的数据条数chunkSize。 import pandas as pd import chardet # 检测文件编码 with open(r'data.txt', 'rb') as f: encode = chardet.detect(f.readline())['encoding'] print(encode) # 建议如果检测出编码为ascii ...

【Python】chunksize分块读取 *[list] isinstance(a, str)

专注于医院数据分析技术与系统开发的创作与分享。

09-29

1510

目录一、场景需求二、技术重点2.1 数据分块读取2.2 对日期分列，以便按年月日分别可视化2.3 isinstance(a, str) 判断数据类型三、完整代码一、场景需求 2019-2020年Covid-19数据，20多万行，提取一部分数据，以便进一步做可视化分析。二、技术重点 2.1 数据分块读取一般数据超过5万行，就建议分块读取，可以减轻系统压力，提高数据处理效率。这次的20多万行，其实一次性读入也行，就是有点吃力，但如果是2000万行、20亿行呢？那就必须分块了。稍微有点规模的数据库上亿的

pandas ：read_csv()函数常用参数的使用

无面人的博客

02-24

4897

介绍了pandas 的read_csv()函数常用参数的使用

详解pandas的read_csv方法

lhwjgs123456789的博客

02-12

3万+

楔子使用pandas做数据处理的第一步就是读取数据，数据源可以来自于各种地方，csv文件便是其中之一。而读取csv文件，pandas也提供了非常强力的支持，参数有四五十个。这些参数中，有的很容易被忽略，但是在实际工作中却用处很大。比如：文件读取时设置某些列为时间类型导入文件, 含有重复列过滤某些列每次迭代指定的行数值替换 pandas在读取csv文件是通过read_csv这个函数读取的，下面就来看看这个函数都支持哪些不同的参数，看看它们都生得一副什么模样，是三头六臂，还是烈焰红唇。

pandas read_csv函数整理（names、skiprows、nrows、chunksize）比赛常用函数细节剖析

gaozhanfire的博客

07-12

3万+

read_csv函数 import pandas as pd 本文所用的数据文件 head.csv(包含“字符串”表头，同时可以用id当index做实验) id,shuju,label 1,3,postive 2,7,negative 5,7,postive 6,8,postive 3,5,negative fff.csv 9,6 1,3 2,4 3,5 4,6 5,7 header这个属性详...

pandas性能提升之利用chunksize参数对大数据分块处理

S_o_l_o_n的博客

08-19

1万+

DataFrame是一个重量级的数据结构，当一个dataframe比较大，占据较大内存的时候，同时又需要对这个dataframe做较复杂或者复杂度非O(1)的操作时，会由于内存占用过大而导致处理速度极速下降。对此，我们的方法是尽量避免直接对过大的dataframe直接操作(当然有时候没有办法，必须对整体的dataframe进行操作，这时就需要从其他方面优化，比如尽量...

R语言读取超大型文件，与pandas chunksize对比

xh542428798的博客

09-21

5011

readr包的使用众所周知，R语言的readr包是个读取文件非常快速的包，广泛用来文本的读取。因为先前是使用python pandas进行数据处理，并且筛选过30G+的数据，这种超大的数据处理，小小的笔记本根本吃不消，会提示内存不够。所以在pandas里面，read_csv有个很好用的参数：low_memory和iterator。 #Pandas读取大文件思路因为我并不需要同时载入超过内存大小的数据，而是需要从大文件中筛选出我需要的数据。因此可以分块读取，筛选完这一部分后，释放内存，读取下一个块，这样直

Python内存不够怎么办！！！pandas.read_csv中的那些有用参数

A3201231998的博客

05-19

6216

最近因为各种事情用Python处理文件，经常遇到文件太大，内存不够的问题，在此整理了以下几种办法。 pandas 读文件失败–》分块处理 有些时候使用pd.read_csv函数读文件会非常尴尬，读到一半内存就不够了，这时候可以使用其提供的分块读取的功能不想看我废话可以直接-》pd.read_csv函数官方文档 chunksize 参数(int, optional) 使用chunksize后pd.read_csv将会返回一个可以迭代的TextFileReader对象。 chunksize的值代表了每次迭代