参考文章:
最近有一个读写csv文件的任务,遇到了部分内容中有逗号的导致读入异常的特殊情况。检索相关资料后发现csv文件的读入不是简单地对逗号进行分割,而是有特殊的处理方式:
- 如果字段中有逗号(,),该字段使用双引号(")括起来;
- 如果该字段中有双引号,该双引号前要再加一个双引号,然后把该字段使用双引号括起来。
这两点很好理解,就是把有逗号的内容用双引号括起来,使其成为一个完整的文本内容。然而这样就会影响原本有双引号的内容,所以在原来的双引号前面再加一个引号进行区分。
参考相关资料,写出csv文件的代码大致完成了:
public static String writeRow(String[] values){
StringBuilder result = new StringBuilder();
for(String v : values){
boolean quoteFlag = false; //是否添加双引号的标记
if(v.contains("\"")){ //将引号替换为双引号,并添加标记
v = v.replaceAll("\"", "\"\"");
quoteFlag = true;
}
if(v.contains(",")){ //存在逗号则添加标记
quoteFlag = true;
}
if(quoteFlag){ //添加内容两端的双引号
v = "\"" + v + "\"";
}
result.append(v).append(",");
}
return result.toString();
}
而读入csv文件相对地成了难点,如何判断一个逗号是否被双引号?
注意到修改过的内容里所有双引号都是成对出现的(第2条),所以判断一个逗号有没有被括号扩住,可以检查这个逗号后面的双引号数量。如果为偶,则表示逗号不在双引号内,这个逗号需要被分割;若为奇,则逗号在双引号内,不用分割。
可以用正则表达式来完成这个判断(参考资料):
",(?=([^\"]*\"[^\"]*\")*[^\"]*$)"
其中"?="表示非获取匹配,正向肯定预查,可以在这里找到相关资料。
最后,读入csv文件的代码大致是这样:
public static String[] readRow(String row){
String[] values = row.trim().split(",(?=([^\"]*\"[^\"]*\")*[^\"]*$)", -1); //分割没有被双引号扩住的逗号
for(int i = 0; i < values.length; i++){
if(values[i].startsWith("\"")) values[i] = values[i].substring(1, values[i].length()); //去掉首尾两端的双引号
if(values[i].endsWith("\"")) values[i] = values[i].substring(0, values[i].length() - 1);
values[i] = values[i].replaceAll("\"\"", "\""); //将连续双引号变为单个双引号
}
return values;
}
在处理CSV文件时遇到含有逗号的内容导致读写异常。解决方案是使用双引号括起包含逗号的字段,并在字段内已有双引号前加一个双引号。通过检查逗号后面双引号的数量,利用正则表达式的非获取匹配(正向肯定预查)来判断逗号是否在双引号内,从而正确读取文件。
&spm=1001.2101.3001.5002&articleId=123225335&d=1&t=3&u=8a68939717c644468d43589b98fd042d)
1万+

被折叠的 条评论
为什么被折叠?



