本来规整的csv数据通过pandas读取后变得不规整的原因以及如何解决(CSV文件中读取时数据分割问题)

最新推荐文章于 2026-03-27 10:35:49 发布

原创

最新推荐文章于 2026-03-27 10:35:49 发布 · 2.9k 阅读

收录于

使用pandas读取CSV数据时遇到数据不规整问题，原因是字段内逗号导致列分隔错误。解决方法是通过代码替换逗号，例如用空格或句号。对于大量数据，可以设置`error_bad_lines=False`忽略错误行，保存索引后再单独处理。

原始数据:

通过pandas.read_csv处理完导出的数据
使用pandas读入数据
原因：
刚开始我也是苦思冥想却不得其法，不知道为啥好好的数据使用pandas读取后就变得不规整了，从网上搜索得知CSV（Comma-Separated Values），CSV文件默认用英文逗号作为列分隔符，通过将title中的数据取出来发现里面存在多个逗号，于是在写入另一个csv中时，title原来为一个字段的内容被分割成了多个字段，进而导致了上面的问题，现在找到了问题，如何解决呢？
解决方法：通过写代码将逗号替换为其他字符，如空格，句号等字符
举例：

import csv
dirs = "F:\\data\\data.csv"
with open(dirs, 'r', encoding='utf-8') as f:
    for index, line in enumerate(f): # 想要同时读取数据及其索引使用enumerate()方法
        if index == 0:
            field = [['doi', 'type', 'isbn', 'container_isbn',
                      'author_n', 'title', 'cited_by', 'pub_year']]  # 第一行写入字段
            with open('data_update.csv', 'a', newline='') as file:
                writer = csv.writer(file)
                for row in field:
                    writer.