Hadoop和Spark的联系和区别
计算数据存储位置
- Hadoop:硬盘
- Spark:内存
计算模型
- Hadoop:单一
- Spark:丰富
处理方式
- Hadoop:非迭代
- Spark:迭代
场景要求
- Hadoop:离线批处理。(面对SQL交互式查询、实时处理及机器学习等需要和第三方框架结合。多种数据格式转换,导致消耗大量资源)
- Spark:批处理、实时处理
本文对比了Hadoop和Spark两大主流大数据处理框架的关键特性。Hadoop主要针对硬盘存储进行优化,适用于离线批处理;而Spark则侧重于内存计算,支持更丰富的计算模型和迭代处理方式,能够应对批处理及实时处理等多种场景。
655
444
1333

被折叠的 条评论
为什么被折叠?
