摘要
本文主要讨论了网络负载平衡集群系统下,基本的平衡算法和动态负载平衡机制。在LVS的基础上配合轮询算法实现了集群的动态负反馈机制,给出了一个基本的动态平衡模型并加以分析.
1.引言
本质上讲,网络负载平衡是分布式作业调度系统的一种实现。平衡器作为网络请求分配的控制者,要根据集群节点的当前处理能力,采用集中或分布策略对网络服务请求进行调配,并且在每个服务请求的生命周期里监控各个节点的有效状态。一般的说,平衡器对请求的调度具备以下的特征:
网络服务请求必须是可管理的
请求的分配对用户是透明的
最好能够提供异构系统的支持
能够依据集群节点的资源情况进行动态分配和调整
负载平衡器在集群的各个服务节点中分配工作负载或网络流量。可以静态预先设置或根据当前的网络状态来决定负载分发到哪个特定的节点,节点在集群内部可以互相连接,但它们必须与平衡器直接或间接相连。
网络平衡器可以认为是网络层次上的作业调度系统,大多数网络负载平衡器能够在网络的相应层次上实现单一系统映像,整个集群能够体现为一个单一的IP地址被用户访问,而具体服务的节点对用户而言是透明的。这里,平衡器可静态或动态配置,用一种或多种算法决定哪个节点获得下一个网络服务请求。
2.网络平衡原理
在TCP/IP协议中,数据包含有必要的网络信息,因而在网络缓存或网络平衡的具体实现算法里,数据包的信息很重要。但由于数据包是面向分组的(IP)和面向连接的(TCP),且经常被分片,没有与应用有关的完整信息,特别是和连接会话相关的状态信息。因此必须从连接的角度看待数据包——从源地址的端口建立到目的地址端口的连接。
平衡考虑的另一个要素就是节点的资源使用状态。由于负载平衡是这类系统的最终目的,那么及时、准确的把握节点负载状况,并根据各个节点当前的资源使用状态动态调整负载平衡的任务分布,是网络动态负载平衡集群系统考虑的另一关键问题。
一般情况下,集群的服务节点可以提供诸如处理器负载,应用系统负载、活跃用户数、可用的网络协议缓存以及其他的资源信息。信息通过高效的消息机制传给平衡器,平衡器监视所有处理节点的状态,主动决定下个任务传给谁。平衡器可以是单个设备,也可以使一组平行或树状分布的设备。
3.基本的网络负载平衡算法
平衡算法设计的好坏直接决定了集群在负载均衡上的表现,设计不好的算法,会导致集群的负载失衡。一般的平衡算法主要任务是决定如何选择下一个集群节点,然后将新的服务请求转发给它。有些简单平衡方法可以独立使用,有些必须和其它简单或高级方法组合使用。而一个好的负载均衡算法也并不是万能的,它一般只在某些特殊的应用环境下才能发挥最大效用。因此在考察负载均衡算法的同时,也要注意算法本身的适用面,并在采取集群部署的时候根据集群自身的特点进行综合考虑,把不同的算法和技术结合起来使用。
3.1 轮转法:
轮转算法是所有调度算法中最简单也最容易实现的一种方法。在一个任务队列里,队列的每个成员(节点)都具有相同的地位,轮转法简单的在这组成员中顺序轮转选择。在负载平衡环境中,均衡器将新的请求轮流发给节点队列中的下一节点,如此连续、周而复始,每个集群的节点都在相等的地位下被轮流选择。这个算法在DNS域名轮询中被广泛使用。
轮转法的活动是可预知的,每个节点被选择的机会是1/N,因此很容易计算出节点的负载分布。轮转法典型的适用于集群中所有节点的处理能力和性能均相同的情况,在实际应用中,一般将它与其他简单方法联合使用时比较有效。
3.2 散列法
散列法也叫哈希法(HASH),通过单射不可逆的HASH函数,按照某种规则将网络请求发往集群节点。哈希法在其他几类平衡算法不是很有效时会显示出特别的威力。例如,在前面提到的UDP会话的情况下,由于轮转法和其他几类基于连接信息的算法,无法识别出会话的起止标记,会引起应用混乱。
而采取基于数据包源地址的哈希映射可以在一定程度上解决这个问题:将具有相同源地址的数据包发给同一服务器节点,这使得基于高层会话的事务可以以适当的方式运行。相对称的是,基于目的地址的哈希调度算法可以用在Web Cache集群中,指向同一个目标站点的访问请求都被负载平衡器发送到同一个Cache服务节点上,以避免页面缺失而带来的更新Cache问题。
3.3 最少连接法
在最少连接法中,平衡器纪录目前所有活跃连接,把下一个新的请求发给当前含有最少连接数的节点。这种算法针对TCP连接进行,但由于不同应用对系统资源的消耗可能差异很大,而连接数无法反映出真实的应用负载,因此在使用重型Web服务器作为集群节点服务时(例如Apache服务器),该算法在平衡负载的效果上要打个折扣。为了减少这个不利的影响,可以对每个节点设置最大的连接数上限(通过阈值设定体现)。
3.4 最低缺失法
在最低缺失法中,平衡器长期纪录到各节点的请求情况,把下个请求发给历史上处理请求最少的节点。与最少连接法不同的是,最低缺失记录过去的连接数而不是当前的连接数。
3.5 最快响应法
平衡器记录自身到每一个集群节点的网络响应时间,并将下一个到达的连接请求分配给响应时间最短的节点,这种方法要求使用ICMP包或基于UDP包的专用技术来主动探测各节点。
在大多数基于LAN的集群中,最快响应算法工作的并不是很好,因为LAN中的ICMP包基本上都在10ms内完成回应,体现不出节点之间的差异;如果在WAN上进行平衡的话,响应时间对于用户就近选择服务器而言还是具有现实意义的;而且集群的拓扑越分散这种方法越能体现出效果来。这种方法是高级平衡基于拓扑结构重定向用到的主要方法。
3.6 加权法
加权方法只能与其他方法合用,是它们的一个很好的补充。加权算法根据节点的优先级或当前的负载状况(即权值)来构成负载平衡的多优先级队列,队列中的每个等待处理的连接都具有相同处理等级,这样在同一个队列里可以按照前面的轮转法或者最少连接法进行均衡,而队列之间按照优先级的先后顺序进行均衡处理。在这里权值是基于各节点能力的一个估计值。
4、动态反馈负载均衡
当客户访问集群资源时,提交的任务所需的时间和所要消耗的计算资源是千差万别的,它依赖于很多因素。例如:任务请求的服务类型、当前网络带宽的情况、以及当前服务器资源利用的情况等等。一些负载比较重的任务需要进行计算密集的查询、数据库访问、很长响应数据流;而负载比较轻的任务请求往往只需要读一个小文件或者进行很简单的计算。
对任务请求处理时间的不同可能会导致处理结点利用率的倾斜(Skew),即处理结点的负载不平衡。有可能存在这样情况,有些结点已经超负荷运行,而其他结点基本是闲置着。同时,有些结点已经忙不过来,有很长的请求队列,还不断地收到新的请求。反过来说,这会导致客户长时间的等待,而集群整体的服务质量下降。因此,有必要采用一种机制,使得平衡器能够实时地了解各个结点的负载状况,并能根据负载的变化做出调整。
具体的做法上采用了基于负反馈机制的动态负载均衡算法,该算法考虑每一个结点的实时负载和响应能力,不断调整任务分布的比例,来避免有些结点超载时依然收到大量请求,从而提高单一集群的整体吞吐率。
在集群内,负载均衡器上运行服务端监控进程,监控进程负责监视和收集集群内各个结点的负载信息;而每个结点上运行客户端进程,负责定时向均衡器报告自身的负载状况。监控进程根据收到的全部结点的负载信息来进行同步操作,既对将要分配的任务按照权值得比例重新进行分布。权值得计算主要根据各个结点的CPU利用率、可用内存以及磁盘I/O状况计算出新的权值,若新权值和当前权值的差值大于设定的阀值,监控器采用新的权值对集群范围内的任务重新进行分布,直到下一次的负载信息同步到来之前。均衡器可以配合动态权值,采用加权轮询算法来对接受的网络服务请求进行调度
5、总结
网络负载平衡是集群作业调度系统的具体实现。由于其处理的作业单元是TCP/IP协议下的网络连接,因此可以采用面向网络连接的集中基本调度算法。考虑集群负载不平衡的可能,采取了动态获取服务节点的权值并使用负反馈机制调整平衡器对网络服务请求的分布,以适应服务节点在运行过程中资源的变化。笔者也在LVS集群系统的基础上,配合原有的轮询算法对其进行改进,增加了采集动态权值的程序并实时反馈到负载平衡器的调度系统上。实践证明,采用动态平衡在集群系统的整体吞吐量方面有所提高,特别是在集群各个节点性能不一,集群提供的网络服务程序所访问的资源多样化的情况下,负反馈机制的效果尤其明显。在其他类型的集群中,负反馈机制的动态负载平衡也能够得到很好的应用,只是平衡器所处理的作业单元不同于网络连接,而具体的负载算法上也将有所不同。
为提高 Web 站点的可靠性,并增加站点容量,我们部署了四个网络负载平衡 (NLB) Web 服务器,这是 Windows 2000 操作系统中两项群集技术中的一种。作为 Windows NT Server 4.0 企业版的 Microsoft Windows NT? 负载平衡服务 (WLBS) 的后续产品,NLB 在一个负载平衡群集中可支持多达 32 个节点,并使所有节点如同一个服务器那样进行工作。
下面我们详细讨论这方面的内容。
NLB 在由多个提供 TCP/IP 服务的服务器组成的服务器组(群集)中分配传入的 IP 通信量。它对整个群集使用一个公用虚拟 IP 地址,并对群集的多个服务器中透明分配客户端请求。群集中的每个服务器可以处理预设比例的负载,或者在所有服务器之间均衡分配负载(我们就用这种方法)。
群集中的某个服务器可能失败,或由于常规维修及系统升级而脱机。这种情况下,为了保证不中断对传入的客户端请求提供服务,NLB 自动把负载重新分配到其余服务器上。
如果网站通信量增加,NLB 可以方便地为 NLB 群集增加更多的 Web 服务器,以此为额外增加的负载增加容量。若要扩展 Web 服务器群,超过 32 节点,NLB 可以和其它负载平衡技术结合使用,比如 Round-Robin DNS (RRDNS)。实际上,许多组织已使用这种负载平衡组合 - NLB 和 RRDNS - 来扩展其具有数百、甚至数千台服务器的 Web 群。
有关这些负载平衡技术如何工作及如何设置网络负载平衡 Web 服务器方面的详细信息,请参阅文章构建高度可靠和可伸缩的 Web 群。
订单处理服务器
在多数电子事务站点的工作流程中,经常有可以异步运行的操作,如下订单和履行订单。使 Web 应用程序的某些操作异步运行,可以通过降低 Web 服务器的资源争夺而使 Web 应用程序的响应更快。结果可以提高站点的使用效果、可伸缩性、可靠性和可用性。
若要支持异步操作,需使用 Windows 2000 Advanced Server 以及 Microsoft 消息队列 (MSMQ)。
本文探讨了网络负载平衡集群系统的基本平衡算法与动态负载平衡机制。介绍了轮转法、散列法等多种平衡算法,并提出了一种基于负反馈机制的动态负载均衡算法,用于实时调整负载以提高集群吞吐率。

127

被折叠的 条评论
为什么被折叠?



