MapReduce(1) —— 关于MapReduce的一些问答

最新推荐文章于 2026-06-08 07:35:58 发布

原创最新推荐文章于 2026-06-08 07:35:58 发布 · 379 阅读

·

0

·

本内容遵循CC 4.0 BY-SA版权协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

标签

#hadoop #mapreduce

大数据小白系列专栏收录该内容

5 篇文章

订阅专栏

MapReduce,作为大数据处理的基石,简化了并行计算的复杂度。通过Splitting、Mapping、Shuffling和Reducing四个阶段,它能高效地处理大规模数据集。本文解析了MapReduce的基本流程,并探讨了其在大数据分析中的应用。

一部编程的发展史就是一部程序员的偷懒史。——一个根本无法反驳的真理

MapReduce(下称MR)同样是程序员们用来偷懒的工具。

来了一份大数据，我们写了一个程序准备分析它，需要怎么做？老式的处理方法不行，数据量太大时，所需的时间无法忍受，所以，必须并行计算。好比1000块砖，1个人搬需要1小时，10个人同时搬，只需要6分钟。

不过进行并行计算，你面临几个细思头大问题：

如何切分数据
如何处理部分失败(某一/某些部分计算失败)
对多路计算的结果进行汇总，产生最终结果

不过不用担心，世界就是这样的，少部分人发明创造工具，大部分人使用工具。总有聪明人在合适的时候出来解决问题。

Google在2004年出了个paper，《MapReduce: Simplifed Data Processing on Large Clusters》，提出来一种针对大数据的并行处理模型、并基于此理论做了一个计算框架。所以，你可以说MR是一种计算模型、也可以叫它一个计算框架。广义的MR甚至还包括一套资源管理(JobTracker、TaskTracker)，后面这个我们不讲，因为，过时了，时了，了。

Q：框架是什么？

A：就是套路，按套路走，它内部会帮你处理那些让你头大的问题。

作为小白系列，我们先来看看MR简单的流程图：

为例方便理解，来一个WorkCount示例(WordCount就好比大数据的HelloWorld，总要来一个)。假设我们有一个文件，包含内容：

Life for nothing, die for something

来统计每一个单词出现的次数

Q：Splitting是怎么做的，分成几份？

A：框架决定(通常是文件有多少个数据块，就分成几份，数据块不懂的回去看HDFS系列)。

Q：k1，v1是什么？

A：一般来说，k1是行号(在WordCount示例中用不到)，v1是文件的某一行。本例只是概念示例，不用纠结。

Q：Mapping产生的结果存储在哪里？

A：所在机器的本地文件系统，非HDFS，以避免产生多余的副本（HDFS默认多个副本）。

Q：Shuffling是做什么的？

A：负责将Mapping产生的中间结果发给Reducer，哪些数据发个哪个Reducer，有框架决定。

Q：Reducer有几个，运行在哪些机器上？

A：框架决定。

Q：哪些是需要程序员进行代码实现的？

A：Mapping及Reducing，即图中两个红框部分。

好了，这期就先说到这，下期将稍微深入了解一下MR中的Shuffling、Sorting等概念。

喜欢本文的朋友们，欢迎长按下图关注订阅号程序员杂书馆，提前获得更多更新内容，以及领取大数据及Java经典资料。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。