Hadoop和Spark的联系和区别

最新推荐文章于 2025-05-13 12:25:13 发布

原创最新推荐文章于 2025-05-13 12:25:13 发布 · 3.7k 阅读

5 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#hadoop #spark #机器学习

收录于

分布式系统专栏收录该内容

3 篇文章

订阅专栏

本文对比了Hadoop和Spark两大主流大数据处理框架的关键特性。Hadoop主要针对硬盘存储进行优化，适用于离线批处理；而Spark则侧重于内存计算，支持更丰富的计算模型和迭代处理方式，能够应对批处理及实时处理等多种场景。

                    
                    Hadoop和Spark的联系和区别

计算数据存储位置

Hadoop：硬盘
Spark：内存

计算模型

Hadoop：单一
Spark：丰富

处理方式

Hadoop：非迭代
Spark：迭代

场景要求

Hadoop：离线批处理。（面对SQL交互式查询、实时处理及机器学习等需要和第三方框架结合。多种数据格式转换，导致消耗大量资源）
Spark：批处理、实时处理