原始数据:

通过pandas.read_csv处理完导出的数据

原因:
刚开始我也是苦思冥想却不得其法,不知道为啥好好的数据使用pandas读取后就变得不规整了,从网上搜索得知CSV(Comma-Separated Values),CSV文件默认用英文逗号作为列分隔符,通过将title中的数据取出来发现里面存在多个逗号,于是在写入另一个csv中时,title原来为一个字段的内容被分割成了多个字段,进而导致了上面的问题,现在找到了问题,如何解决呢?
解决方法:通过写代码将逗号替换为其他字符,如空格,句号等字符
举例:
import csv
dirs = "F:\\data\\data.csv"
with open(dirs, 'r', encoding='utf-8') as f:
for index, line in enumerate(f): # 想要同时读取数据及其索引使用enumerate()方法
if index == 0:
field = [['doi', 'type', 'isbn', 'container_isbn',
'author_n', 'title', 'cited_by', 'pub_year']] # 第一行写入字段
with open('data_update.csv', 'a', newline='') as file:
writer = csv.writer(file)
for row in field:
writer.

使用pandas读取CSV数据时遇到数据不规整问题,原因是字段内逗号导致列分隔错误。解决方法是通过代码替换逗号,例如用空格或句号。对于大量数据,可以设置`error_bad_lines=False`忽略错误行,保存索引后再单独处理。

1589

被折叠的 条评论
为什么被折叠?



