众所周知,csv文件默认以逗号“,”分割数据,那么在scala命令行里查询的数据:

可以看见,字段里就包含了逗号“,”,那接下来切割的时候,这本应该作为一个整体的字段会以逗号“,”为界限进行切割为多个字段。
现在来看看这里的_c0字段一共有多少行记录。

记住这个数字:60351行
写scala代码读取csv文件并以逗号为分隔符来分割字段
val lineRDD = sc.textFile("xxxx/xxx.csv").map(_.split(",")
"本文探讨了Scala中处理包含内部逗号的CSV文件问题,提出如何使用正则表达式`split(",(?=([^""]*""[^""]*"")*[^""]*$)")`避免字段切割错误。通过实例说明了如何修复数组下标越界异常,并强调了针对引号内内容的分割策略。"
众所周知,csv文件默认以逗号“,”分割数据,那么在scala命令行里查询的数据:

可以看见,字段里就包含了逗号“,”,那接下来切割的时候,这本应该作为一个整体的字段会以逗号“,”为界限进行切割为多个字段。
现在来看看这里的_c0字段一共有多少行记录。

记住这个数字:60351行
写scala代码读取csv文件并以逗号为分隔符来分割字段
val lineRDD = sc.textFile("xxxx/xxx.csv").map(_.split(",")
252
207
1553

被折叠的 条评论
为什么被折叠?
