python replace 空格数据处理

原创已于 2022-06-01 19:57:43 修改 · 3.8k 阅读

1 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#python

于 2022-06-01 19:54:38 首次发布

【Phthon】专栏收录该内容

60 篇文章

订阅专栏

本文介绍了在Python中如何利用replace方法去除DataFrame中的空格、制表符和换行符，以及如何处理Unicode编码中的不间断空格问题。在数据预处理阶段，对数据进行清洗是关键步骤，特别是对于商品名称等字段，去除空格可以提高数据的准确性。文章通过实例展示了在Pandas DataFrame中应用lambda函数和replace方法的技巧，以及处理特殊Unicode编码的解决方案。

一、使用replace+空格

ordersdetaildf['商品名称2']=ordersdetaildf['商品名称'].apply(lambda x:x.replace(" ",""))

上述代码表示：在Dataframe当中创建新的一列，名字叫做商品名称2，是对商品名称列当中的空格进行去除之后的新的数据。

在这里插入图片描述

对制表符和换行符等等也可以进行同样的操作：

ordersdetaildf['商品名称2']=ordersdetaildf['商品名称2'].apply(lambda x:x.replace("\n","").replace("\\t\\r",""))

二、使用replace+unicode编码

但是在某些情况下，我发现仅仅使用replace是无法去除空格的：

ordetgb=ordersdetaildf.groupby('订单编号',as_index=False)["商品名称"].apply(lambda x:'|'.join(x.values)).reset_index(drop=True)  #替换成|很重要

当我想将相同订单编号的商品名称进行合并的时候，发现使用join后会出现很多空格，这是使用replace是无法去除空格

在这里插入图片描述

解决方法：

# 经过excel查询code(a1)  unicode=u00A0  不间断空格
ordetgb['商品名称']=ordetgb['商品名称'].astype(str).apply(lambda x:x.replace(u"\u00A0",""))

在这里插入图片描述