分布式如何解决大数据的存储与计算问题个人理解
-
分布式:如何解决大量数据的计算和存储问题的?
-
问题1:为什么不用MySQL存储和分析计算?
- 数据量大,MySQL存储不了
- 即使能存储,处理的性能也很差
- 数据的价值会随着时间的流逝而逐渐降低
- 离线架构:以一定时间为单位处理数据
- 今天处理昨天的数据,时效性比较慢【分钟及以上级别】
- 实时架构:以数据生成为单位处理数据
- 数据产生一条处理一条,时效性比较高【ms级别】
- 数据种类的多样化
-
问题2:如何解决数据大无法存储或者计算的问题?
- 分布式:分而治之
- 先分
- 计算处理
- 后合
- 定义:就是将多台机器的资源【集群】在逻辑上合并成==一个整体==,通过分布式的软件,提供分布式的服务
- 过程
- step1:有一个很大的任务:存储、计算
- step2:提交给分布式服务,分布式服务实现分的过程
- 将这个很大的任务拆分成若干个小的任务
- step3:分布式服务将若干个小的任务分配给多台
- 分布式:分而治之
-

本文探讨了分布式如何解决大数据的存储和计算问题。指出数据量大时,MySQL无法有效存储和处理,因此引入分布式存储和计算。通过分而治之的方式,将大任务拆分为小任务,分配给多台机器执行,最后合并结果。分布式架构包括主从节点,解决了资源不足和性能差的问题。Zookeeper用于解决分布式系统中的一致性和主节点单点故障问题,确保系统的稳定运行。

3197

被折叠的 条评论
为什么被折叠?



