分布式计算

原创已于 2022-04-01 14:36:19 修改 · 1k 阅读

2 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#后端 #分布式

于 2022-03-31 20:50:13 首次发布

分布式专栏收录该内容

1 篇文章

订阅专栏

本文介绍了分布式计算的三种主要方法：MapReduce、流计算和Actor模型。MapReduce通过分而治之的思想，将大规模任务拆分成子任务，由Mapper和Reducer处理。流计算针对实时数据流，强调快速处理和持续输出结果。Actor模型则是一种并行计算模型，每个Actor拥有状态、行为和邮箱，通过异步消息传递进行通信。这三种模型各有优劣，适用于不同的分布式计算场景。

分布式计算技术

主要讲述了4种分布式计算

前言

简单总结一下集中分布式计算方式

一、MapReduce

Hapdoop作为一个解决海量数据计算问题的框架，它到底是怎么实现的呢?

1.分而治之的思想

分而治之顾名思义就是把一个大的复杂的任务分为若干个相对简单的小的任务，这些小的任务与原任务有着相似的形势，对这些子问题独立的求解最后再合并即可得到原问题的解。在分布式领域，有类似如下3种问题也适合分而治之的思想:

问题的规模比较大，能分解为几个简单的、同类型的子问题
子问题之间的解相互独立，不包含重叠部分
各子问题的解能够合并得到原问题的解

采用分治法解决该类问题的步骤：

分解原问题。将原问题分解为几个互相独立的、同类类型的子问题。
求解子问题。分别对子问题进行递归的求解
合并解。将子问题求得的解进行合并，得到最终的解

2.MapReduce

MapReduce就是采用了这一思路，MapReduce主要由MRApp(master)、mapper(worker)、reducer(worker)组成,是一个典型的主从模型，其中master的作用是负责分配任务，资源，协调任务的运行，并且为mapper分配map()操作，为reducer分配reduce()操作。mapper的作用就是计算，负责执行子任务。reducer的作用就是将mapper得到的结果进行汇总。

在这里插入图片描述

具体步骤:

user 将任务下发到MRAppmaster节点中，并由它将任务进行拆分。例：假设master将函数任务分为5个，其中3个函数任务给mapper, 2个给reducer。集群内的worker节点都有对应任务的副本。注意这里的对应任务是要执行的操作。
接下来就是由MRAppmaster下发前面分好的任务。mapper和reducer的数量分别对应前面划分好的任务数量。
被分配的map()任务的worker开始读取子任务输入的数据，并从数据中抽取出<k,v>键值对，将键值对多为参数传递给map()函数。
将map()函数输出的结果放在环形缓冲区中，这些缓冲区中的数据会被定期的写入本地磁盘，被存储在R个不同的磁盘区。这里的磁盘区数量R与reducer的数量有关。此外，每个mapper结果的存储位置也会上报给MRAppmater节点。
由MRAppmaster节点通知reducer它负责处理的数据在那个分区。然后reducer从对应的分区读取数据，即中间键值对。将这些键值对都读过来后，将它们进行排序，对相同键值对的数据进行组合。这一步的task就是对各mapper的结果进行统计。
将具有相同键值的数据合并之后，就把统计的结果作为输出文件存储在负责的分区中。