StarRocks与ClickHouse

本文介绍了开源OLAP引擎的现状,重点讨论了StarRocks和ClickHouse的特点与应用场景。StarRocks以其亚秒级查询延迟和高速写入性能脱颖而出,适合大规模实时分析;而ClickHouse则以其列存结构和高速查询能力在用户行为分析和实时BI报表等领域广泛应用。同时,文章还探讨了大数据解决方案,包括Lambda架构、实时数仓方案以及云原生数据仓库的存储和计算优化。

1、开源OLAP综述

         如今的开源数据引擎多种多样,不同种类的引擎满足了我们不同的需求。现在ROLAP计算存储一体的数据仓库主要有三种,即StarRocks(DorisDB),ClickHouse和Apache Doris应用最广的数据查询系统主要有Druid,Kylin和HBaseMPP引擎主要有Trino,PrestoDB和Impala这些引擎在行业内有着广泛的应用。

2、开源数仓解决方案

        接下来,我们讲讲开源大数据以及数仓的解决方案。上图是EMR的整体架构,在云资源层,主要有ECS。在存储层的JindoFS提供了以OSS为基底的Hadoop接口,不但节约了成本,而且提升了整体的扩展性。数据湖格式有效解决了数据统一管理的难题。其次在计算引擎方面,它具有批处理,流式计算,机器学习和引擎加速等能力。

         目前,大家应用最多的离线数仓体系是Lambda架构。该架构主要分为两个部分。

        第一部分,在实时方面我们从CDC,ORTP的数据源开始,进行行为数据分析,然后通过Kafka,Flink进行加工。让数据在线系统,可以直接调用API,提升点查效率。其次,当所有聚合的数都导入Olap系统时,运营人员可以快速用它,实现自己新的想法,提升工作效率。

        第二部分,在离线方面当需要长久保存数据时,大家都会使用hive。如果没有增量数据库格式,大家一般通过insert overwrite,在detail上做一些数据集市。除此之外,我们通过离线t+1的方式,实现离线数仓的实时数据订正。因为实时数据一般得出的是近似值,离线数据得到的是准确值。

        第三部分,实时数据湖的解决方案,其数据量在PB+级

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值