主数据管理(MDM)全面解析:从设计到应用
一、MDM 设计与数据建模及集成
MDM 的设计和实施与数据建模及集成密切相关。选择重叠的数据属性、进行协调(ETL)并将其建模为合适的数据模型,是 MDM 解决方案整体设计的关键部分。不同的风格和解决方案会导致数据建模和集成工作的量有所不同,集成模式和架构也会有所差异。例如,共存风格更多依赖实时处理,利用 API 和流式架构;而整合风格仅使用 RDS 架构就能完美实现。
1.1 MDM 治理设置
在 MDM 解决方案中完成所有重叠数据的合并、协调和集成后,建立治理机制至关重要。需要与数据所有者就以下事项达成一致:
- 清理、匹配、合并和链接规则
- 中央主数据存储可作为权威来源的用途分类,以及数据消费者在何种情况下必须依赖其本地(原始)源系统
- 要实施的数据质量流程
- 改进应多快反馈回原始源系统
- 新创建数据的所有者
- 用于反馈改进的数据集成技术(预计会有批量、API 和流式传输的变体和组合)
- 哪些用户有权批准或拒绝提议的更改
- 主数据定义,应存储在中央元数据存储库(如数据目录)中
1.2 MDM 数据分发
分发 MDM 数据时,必须在数据一致性和低延迟之间取得平衡。所有分布式架构都受 CAP 定理的影响,即强一致性和低延迟不能总是完美平衡。根据具体情况,需要有所侧重:
-
低延迟或操作型用例
:使用 API 架构。
-
可处理较高延迟的用例
:可以使用流式和 RDS 架构分发主数据。
-
微服务方法
:使用状态存储。通过流式架构将 MDM 结果作为流式数据库暴露给消费应用程序,使域的微服务可以是域开发的服务和负责 MDM 数据的面向读取的微服务的集合。
1.3 主标识号
主标识号是 MDM 的重要方面,它将主数据与本地系统的数据链接在一起。这些数据元素对于跟踪哪些数据已被主数据化以及哪些数据属于一起至关重要。识别唯一数据并分配主标识符只能在全局层面进行,而不能在系统内部局部进行,这需要将不同系统的所有数据集中在一起。如果系统更改其数据,则需要重新交付数据以再次进行检测。
对于黄金数据源,一旦受 MDM 管理,主标识号应分发回并存储在原始黄金源系统中。或者,域可以在查找表中维护本地标识符和主标识符之间的关系,该表可在 MDM 解决方案中发布。识别和维护这些关系不仅有助于了解哪些数据已被主数据化,还能快速将数据与其他数据链接起来。在分发主标识符时,不应将 MDM 主标识符扩展到每个管理部门,只有受主数据管理的管理部门才应从 MDM 中心获取主标识符,未受 MDM 管理的系统应使用其本地(域)完整性。
1.4 应用键与代理键
数据工程师在建模设计和选择唯一标识符时有两种选择:
| 类型 | 描述 | 优点 |
| ---- | ---- | ---- |
| 应用键 | 唯一的现有业务标识符 | 具有业务语义 |
| 代理键 | 系统生成的键,唯一且不可更改 | 无语义含义,有助于识别主数据组 |
在数据重新分发且源系统管理中存在主标识符时,主标识符也必须作为数据交付的一部分。在数据重新分发期间纳入主标识符可以更轻松地确定哪些数据属于一起。
1.5 参考数据与主数据
虽然许多 MDM 解决方案可以管理参考数据和主数据,但建议明确区分两者。参考数据用于定义、分类、组织、分组或归类其他数据;而主数据涉及核心概念。
参考数据通常集中管理,如以表格或文档形式。中央 MDM 解决方案确保一致性,保障所有相关利益相关者积极参与更改,同时维护合规性和治理。例如,ISO 货币标准,当货币列表更改时,MDM 解决方案管理这些更改并通过集成架构将所有参考数据分发给消费系统,确保它们使用相同的一致货币列表。分发参考数据时,必须在数据层使用主标识符,并通过元数据和数据质量控制确保数据质量。
1.6 确定企业数据范围
主数据管理中最困难的问题之一是如何定义主数据和参考数据的组织范围。哪些数据应在企业层面管理,哪些数据可以由域组织,这是需要解决的问题。
使用 MDM 时,容易陷入企业数据统一的陷阱,扩大范围并主数据化过多数据会导致数据集成、治理和协调工作大幅增加。解决方案在于元数据,通过谱系、数据模型和共享协议,可以找到域之间的重叠和共同感兴趣的领域,从而确定范围。例如,仅在单个域内使用的客户属性不应在 MDM 范围内,而分布在所有域之间的属性则是潜在的候选对象。因此,任何 MDM 解决方案都必须与元数据功能密切合作。
当元数据质量较高时,可以考虑使用机器学习来预测重叠位置以及应在企业层面管理的数据。数据可以分为以下几类:
-
企业数据
:具有企业范围和适用性的数据,包含主数据和参考数据,其一致性很重要,范围可以从多个域到所有域甚至企业外部。
-
域数据
:在部分但不是所有域之间共享的数据,对重叠的域很重要,但没有企业重要性和监管重要性,通常在几个域内管理和维护。
-
本地数据
:未被任何其他域共享或使用的数据,仅在单个本地域或系统内使用。
这些分类有助于大规模实施主数据管理和治理。企业数据具有高度的一致性和许多依赖关系,对其进行适当治理很重要,可以在接口、元数据模式和数据分发流程上实施额外控制。一种实用的控制形式是跟踪每个黄金数据集及其与企业数据的关系,并将此信息存储在黄金数据源列表注册表中。在数据流经架构时,可以使用此元数据并通过数据质量函数验证主标识符的完整性。
企业数据中的主标识符也称为企业标识符,对于一致性和可扩展性很重要。例如,在 Kafka 中,必须确保使用企业标识符正确分区主题,因为消费者组合主题时会反复使用这些标识符。企业标识符在 API 和 REST 架构风格中也起着重要作用,因为它们可以通过超媒体链接将资源链接在一起,使消费者能够导航到适当的资源。
域数据也可以同时与企业数据和其他域数据存在关系。例如,企业层面的 ISO 货币表使用两位字母代码,而其他几个域使用三位字母代码。虽然只有一个表具有企业分类,但在同一个中央企业 MDM 解决方案中维护两个表之间的关系仍然是有意义的。
以下是 MDM 整体流程的 mermaid 流程图:
graph LR
A[MDM 设计与实施] --> B[数据建模与集成]
B --> C[数据合并、协调与集成]
C --> D[设置治理]
D --> E[MDM 数据分发]
E --> F[主标识号分发]
B --> G[选择唯一标识符]
G --> H[应用键或代理键]
C --> I[区分参考数据与主数据]
I --> J[确定数据范围]
J --> K[企业数据、域数据、本地数据分类]
二、MDM 与数据质量即服务及策划数据
2.1 MDM 与数据质量即服务
为了在企业和域中成功实施 MDM,建议将 MDM 产品作为服务提供给域。MDM 解决方案通常很复杂,实施困难,将基础设施抽象化并提供 MDM 服务可以大大简化使用。如果使用中央解决方案,建议对域进行隔离。如果所有主数据和参考表都集中存储,可以使用元数据区分它们,并分类哪些数据集是企业数据和域数据。
数据质量(如分析、匹配、标准化和验证功能)也可以采用即服务模式。在这种模式下,质量措施和控制变得透明,域无需自行实施这些解决方案。
2.2 策划数据
主数据管理与数据策划有重叠,数据策划是从不同来源收集数据并将其集成,使其比独立部分更有价值的过程。在大型组织中,这个过程通常与 DataOps 相结合,用于创建和交付策划的、自动化的和可信的数据管道。数据策划涉及为其他团队消除可重复的集成工作,对企业很重要。虽然数据策划与 MDM 有重叠,但需要明确它们之间的差异并制定相关原则。
2.2.1 MDM 与数据策划的区别
- MDM :核心是管理、集中、组织、分类和主数据化数据的过程。在此过程中,通常会删除重复项、纠正数据并消除错误数据,重点是实体合并和集群减少,产生主数据和参考数据的权威来源。唯一数据通常在中央检测,并将输出持久化到新的物理位置,不会在不同上下文中创建新数据,事实(如定量信息)保持在自己的上下文中,但会进行正确性和一致性改进。
- 数据策划 :没有明确说明是否会修改现有数据或创建新数据,上下文也可以改变。不明确数据是否必须持久化,可以是虚拟视图或作为最佳实践交付,例如通过数据目录提供元数据、注释或代码片段。与元数据管理密切相关,很大一部分围绕组织元数据(如架构、表和列信息、查询等)。
2.2.2 创建和管理策划数据的方法
- 元数据交换 :通过共享元数据为数据提供更多企业语义一致性,数据本身不改变或共享。可以通过提供额外的元数据文件、将元数据封装到数据中或在中央位置(如数据目录)维护元数据等方式将元数据分发给不同域。元数据应包含特定数据实体的信息,如位置、注释、属性、关系和语义含义。如果实体等效,可以使用标签或注释以类似方式表示,使数据消费更轻松。数据策划过程可以通过数据专家与主题或领域专家合作,或通过众包邀请用户社区和公众智慧来加速,还可以使用自动元数据注释工具支持。
- 集成视图 :是预定义的查询,在执行时使用相同的 SQL 语句重新创建数据。这种确保一致性的方法在 MDM 和 EDW 架构中很常见,有时也称为虚拟表。与通过元数据提供语义一致性不同,视图可以包含业务逻辑,甚至可以创建或生成新的数据元素,不仅是语法转换,还可能是上下文转换,数据可以复制,视图也可以物化以提高查询性能。视图还可以与元数据结合,例如从元数据生成并在元数据更改时自动更改。
- 可重用组件和集成逻辑 :通过代码共享实现数据协作和可重用性,共享的不是策划数据,而是生成输出的底层代码(代码片段和脚本),存储在中央开放存储库中,包括版本控制,允许 DevOps 团队贡献和改进。这种模式的优点是业务逻辑仅在域内应用,团队可以根据需要进行改进或使用优化版本的逻辑,并且随着社区的改进,输出可以重新生成。缺点是一致性问题,因为允许团队修改代码会使团队之间的结果比较更困难。
-
数据重新发布
:一些数据库供应商提倡通过中心和数据库平台持久化和集成来创建策划数据。在这种方法中,DevOps 团队既是数据消费者又是提供者,他们尽可能捕获数据,提取并加载到数据存储中,然后重新发布或分发。在此过程中,语义上下文可以改变,需要对现有数据集应用转换和增强,也可以创建新数据集。这种方法与 DDS 分发集成数据的方式有重叠,但存在一些风险和挑战:
- 可追溯性和版本控制 :需要数据策划者对数据获取和应用的操作和转换序列进行编目,并将此元数据集中发布。
- 数据质量和治理问题 :将数据固定在中心可能导致改进无法反馈回原始黄金源系统,从而影响事务和操作。
以下是创建和管理策划数据方法的对比表格:
| 方法 | 优点 | 缺点 |
| ---- | ---- | ---- |
| 元数据交换 | 数据本身不变,通过元数据提供一致性,可加速策划过程 | |
| 集成视图 | 包含业务逻辑,可创建新数据元素,可提高查询性能 | |
| 可重用组件和集成逻辑 | 业务逻辑在域内应用,可灵活改进,输出可重新生成 | 一致性较难保证 |
| 数据重新发布 | 可创建新数据集,与 DDS 分发方式有重叠 | 可追溯性和版本控制、数据质量和治理存在问题 |
以下是创建和管理策划数据方法的 mermaid 流程图:
graph LR
A[策划数据] --> B[元数据交换]
A --> C[集成视图]
A --> D[可重用组件和集成逻辑]
A --> E[数据重新发布]
B --> F[共享元数据]
C --> G[预定义查询]
D --> H[代码共享]
E --> I[数据持久化与分发]
F --> J[提供额外文件或封装元数据]
F --> K[中央维护元数据]
G --> L[包含业务逻辑]
G --> M[可物化视图]
H --> N[存储在中央库]
H --> O[团队可改进]
I --> P[应用转换和增强]
I --> Q[创建新数据集]
综上所述,MDM 在企业数据管理中起着至关重要的作用,从设计、实施、分发到与其他数据管理概念的结合,都需要综合考虑各种因素,以实现数据的有效管理和利用。不同的数据管理方法各有优缺点,企业需要根据自身需求和情况选择合适的方法。
三、MDM 在不同场景下的应用考量
3.1 金融行业中的 MDM 应用
在金融行业,数据的准确性和一致性至关重要。以银行系统为例,客户主数据、账户主数据以及交易参考数据等都需要进行有效的管理。
- 客户主数据 :包含客户的基本信息、联系方式、信用记录等。通过 MDM 可以确保这些信息在各个业务系统中的一致性,避免因信息不一致导致的风险评估失误。例如,在进行贷款审批时,不同部门获取的客户信用记录应该是相同的,这就需要 MDM 来保证数据的准确性和一致性。
- 账户主数据 :涉及账户的类型、余额、交易限制等信息。MDM 可以帮助银行整合不同账户系统的数据,实现统一管理。比如,一个客户可能有储蓄账户、信用卡账户等多个账户,MDM 可以将这些账户信息进行关联和整合,方便银行进行客户关系管理和风险控制。
- 交易参考数据 :如利率、汇率、证券代码等。这些数据的实时性和准确性对于金融交易至关重要。MDM 可以确保这些参考数据在不同交易系统中的同步和一致,提高交易的效率和安全性。
以下是金融行业 MDM 应用的简单流程图:
graph LR
A[客户主数据] --> B[MDM 系统]
C[账户主数据] --> B
D[交易参考数据] --> B
B --> E[贷款审批系统]
B --> F[客户关系管理系统]
B --> G[交易系统]
3.2 制造业中的 MDM 应用
制造业中,MDM 可以应用于产品数据管理、供应商数据管理等方面。
- 产品数据管理 :包括产品的设计图纸、物料清单(BOM)、工艺路线等信息。MDM 可以确保这些产品数据在不同部门(如设计、生产、销售)之间的一致性和共享性。例如,设计部门对产品进行了改进,MDM 可以及时将更新后的产品数据同步到生产和销售部门,避免因数据不一致导致的生产错误和销售问题。
- 供应商数据管理 :涉及供应商的基本信息、供应能力、质量评级等。通过 MDM 可以对供应商数据进行集中管理和评估,选择合适的供应商,降低采购成本和风险。比如,在选择新的供应商时,MDM 可以提供供应商的历史数据和评级信息,帮助企业做出更明智的决策。
以下是制造业 MDM 应用的表格说明:
| 应用场景 | 管理内容 | 好处 |
| ---- | ---- | ---- |
| 产品数据管理 | 设计图纸、BOM、工艺路线等 | 确保数据一致性,提高生产效率 |
| 供应商数据管理 | 基本信息、供应能力、质量评级等 | 优化供应商选择,降低采购风险 |
四、MDM 实施的挑战与应对策略
4.1 数据质量挑战
数据质量是 MDM 实施的关键问题之一。低质量的数据(如重复数据、错误数据、不完整数据)会影响 MDM 的效果和可靠性。
- 挑战表现 :重复数据会导致数据冗余和不一致,错误数据会影响决策的准确性,不完整数据会导致业务流程受阻。
-
应对策略
:
- 数据清洗 :在数据进入 MDM 系统之前,进行数据清洗操作,去除重复数据、纠正错误数据、补充不完整数据。可以使用数据清洗工具或编写自定义脚本进行数据清洗。
- 数据质量监控 :建立数据质量监控机制,定期对 MDM 系统中的数据进行检查和评估。可以设置数据质量指标(如数据准确性、完整性、一致性等),对不符合指标的数据进行预警和处理。
- 数据质量培训 :对数据录入人员和使用人员进行数据质量培训,提高他们的数据质量意识和操作技能,减少人为因素导致的数据质量问题。
4.2 组织协调挑战
MDM 实施涉及多个部门和业务流程,需要进行有效的组织协调。
- 挑战表现 :不同部门之间的数据需求和使用习惯不同,可能会导致数据标准不一致和数据共享困难。此外,部门之间的利益冲突也可能影响 MDM 项目的推进。
-
应对策略
:
- 建立跨部门团队 :成立由 IT 部门、业务部门、数据管理部门等组成的跨部门团队,负责 MDM 项目的规划、实施和协调。团队成员需要明确各自的职责和任务,加强沟通和协作。
- 制定数据标准和规范 :统一数据标准和规范,确保不同部门之间的数据一致性和兼容性。数据标准和规范应该包括数据定义、数据格式、数据编码等方面的内容。
- 建立数据治理机制 :建立数据治理机制,明确数据的所有权、使用权和管理权,加强对数据的监管和控制。数据治理机制应该包括数据质量评估、数据安全管理、数据变更管理等方面的内容。
4.3 技术集成挑战
MDM 系统需要与多个现有系统进行集成,技术集成难度较大。
- 挑战表现 :不同系统的技术架构、数据格式、接口标准等可能不同,导致集成过程中出现兼容性问题和数据传输问题。
-
应对策略
:
- 选择合适的集成技术 :根据不同系统的特点和需求,选择合适的集成技术,如 ETL(Extract, Transform, Load)、API(Application Programming Interface)等。ETL 技术适用于批量数据的抽取、转换和加载,API 技术适用于实时数据的交互和共享。
- 进行系统接口开发 :根据 MDM 系统和现有系统的接口标准,进行系统接口开发,实现数据的无缝对接。在接口开发过程中,需要注意数据的安全性和稳定性。
- 进行系统测试和验证 :在集成完成后,进行系统测试和验证,确保数据的准确性和一致性。测试内容包括数据抽取、转换、加载、传输等方面的功能测试和性能测试。
以下是 MDM 实施挑战与应对策略的总结表格:
| 挑战类型 | 挑战表现 | 应对策略 |
| ---- | ---- | ---- |
| 数据质量挑战 | 重复数据、错误数据、不完整数据 | 数据清洗、数据质量监控、数据质量培训 |
| 组织协调挑战 | 数据标准不一致、数据共享困难、利益冲突 | 建立跨部门团队、制定数据标准和规范、建立数据治理机制 |
| 技术集成挑战 | 兼容性问题、数据传输问题 | 选择合适的集成技术、进行系统接口开发、进行系统测试和验证 |
五、总结与展望
MDM 在企业数据管理中具有重要的作用,可以帮助企业实现数据的集中管理、提高数据质量、促进数据共享和业务协同。然而,MDM 实施过程中也面临着数据质量、组织协调、技术集成等方面的挑战。企业需要根据自身的实际情况,选择合适的 MDM 解决方案和实施策略,加强数据管理和治理,提高企业的数据竞争力。
未来,随着人工智能、大数据、云计算等技术的不断发展,MDM 也将不断创新和发展。例如,利用人工智能技术进行数据清洗和数据质量评估,利用大数据技术进行数据挖掘和分析,利用云计算技术实现 MDM 系统的弹性扩展和高可用性。相信在这些新技术的推动下,MDM 将在企业数据管理中发挥更加重要的作用。
超级会员免费看
全面解析:从设计到应用&spm=1001.2101.3001.5002&articleId=153238105&d=1&t=3&u=b7a1f1139b614ed7b1cff7b2c468344f)
7943

被折叠的 条评论
为什么被折叠?



