GaussDB数据库SQL系列-数据去重

原创

于 2024-12-27 09:53:48 发布 · 954 阅读

标签

#数据库 #gaussdb #sql

一、前言
数据去重在数据库中是比较常见的操作。复杂的业务场景、多业务线的数据来源等等，都会带来重复数据的存储。本文以GaussDB数据库为实验平台，将为大家详细讲解如何去重。

二、数据去重应用场景
数据库管理（含备份）：在数据库中进行数据去重可以避免数据重复存储、备份，提高数据库的存储效率、降低备份的存储成本。
数据集成：在数据集成的过程中，需要合并多个数据源的数据，去重可以避免重复的数据对合并结果的影响。
数据分析（或挖掘）：在进行数据分析或数据挖掘时，去重可以避免重复的数据对分析或挖掘结果的干扰，提高分析的准确性。
电商平台：在电商平台上进行商品去重可以避免重复上架相同的商品，提高平台的用户体验。
金融风控：在金融风控领域，去重可以避免重复的数据对风控模型的影响，提高风控的准确性。
三、数据去重案例（GaussDB）
实战业务场景 + GaussDB数据库

1、示例场景描述
以保险行业的客户信息除重为例，为防止坐席重复联系客户（容易造成客户投诉），需要将客户进行唯一身份识别。存在以下两种情况，需要将其识别成一个人（唯一），这时候就需要进行数据去重的动作。

情况一：同一个客户有不同的来源渠道：客户即购买了寿险、又购买了产险（两个不同的来源系统）；
情况二：同一个客户多次回流：客户在同一个渠道多次购买（续保或者购买同一险种的不同产品）。
2、定义重复数据
通过“姓名+证件类型+证件号”将其识别为一个人，即只要这三个字段重复，就认为这些数据行为重复数据。（当然还有更复杂的场景，例如，“姓名+证件类型+证件号+手机号+车牌号”等，本次不做详细介绍）。
在这里插入图片描述