【技术分享】数据治理工具Apache Atlas初体验

最新推荐文章于 2026-01-13 10:39:02 发布

原创

最新推荐文章于 2026-01-13 10:39:02 发布 · 1.5k 阅读

标签

#apache #big data #hadoop

本文介绍Apache Atlas作为一款数据治理工具，在企业数字化转型过程中如何解决数据孤岛问题。通过自动构建数据字典、生成数据血缘关系等功能，帮助实现数据资源的有效管理和利用。

企业在数字化转型中会遇到各业务系统多，建设历程长，数据缺乏统一维护，从而导致数据无法贯通，数据字典缺失等问题。数据流转关系往往保留在业务或技术人员的脑海中，难以充分利用和传承。Apache Atlas就是为解决这些问题而产生的数据治理工具，利用Atlas可以自动构建数据字典，自动生成数据血缘，快速检索数据资源，不仅支持Hadoop生态的Hive、HBase、Sqoop等组件，还可以支持传统关系型数据库。

一、框架

在这里插入图片描述

上图可以看出，Atlas的框架有两个特点，一是基于Hadoop生态组件搭建，二是架构有些复杂。搭建Atlas需要一定的Hadoop基础知识，和十足的耐心，但使用的话不需要太了解底层的架构，使用界面比较傻瓜。

从架构图左上角开始，Atlas分析的数据来自于各类数据库自身的元数据（描述数据的数据，比如描述数据的建表语句、存储位置、关联关系等等）。再下来，采集元数据是通过Messaging组件实现的，其实就是Kafka。再下面，元数据进入Atlas的Core核心组件，为数据治理提供元数据导入导出、类型系统（也就是对库、表、字段等数据管理对象定义模型）、图形引擎（使用图模型保存元数据对象）。再向下，是通过JanusGraph把图模型转换为K-V数据保存于HBase中，使用Solr进行数据的搜索。接下来向上看，Atlas支持API的交互以控制core组件。再向上，通过Web应用封装API实现常规的使用（如数据元信息获取、血缘分析等）。

二、部署

从架构上看，Atlas的部署是一个很有挑战的活。要部署Hadoop集群（搭建并调试起HDFS、Yarn等基本组件）、Kafka集群（依赖Zookeeper）、HBase集群、Solr集群，由于需要一个数据源提供元数据，还需要搭建Hive（同时配套Mysql）。搭好这一堆后，再部署Atlas的应用。搭建的过程可以参考B站视频教程。

提一些建议，首先是搭建的过程中涉及大量的配置，千万别写错了，否则排查起来很困难。搭建调试好后，可以检查一下进程如下即可：