大数据存储

本文详细介绍了云存储的概念、特点、架构和技术,包括存储虚拟化、分布式存储、数据缩减和负载均衡。同时,讨论了大数据存储的挑战,如容量、延迟、安全和成本问题,以及DAS、NAS和SAN等存储系统架构。最后,提到了NoSQL和NewSQL等新兴数据库技术在大数据存储中的应用及其优缺点。

一、云存储
1.概念:云存储是在云计算概念上的延伸和发展出来的一个新概念,是一种新兴的网络存储技术。
2.特点:
可靠性
可用性(多路径、控制器、不同的光纤网、RAID技术、端到端的架构控制/监控和成熟的变更管理过程等方案均可提高云存储可用性)
安全性
规范化
低成本
3.架构
云存储架构由上而下可以分为访问层、应用接口层、基础管理层和存储层
这里写图片描述
4.云存储技术
4.1存储虚拟化
在虚拟化存储环境中,服务器及其应用系统面对的都是物理设备的逻辑映像,且不会随着物理设备的变化而变化,实现了资源对系统管理员的透明性,在降低构建存储系统成本的同时使管理和维护资源变得容易。
2)云存储的虚拟化将存储资源虚拟化为全局命名空间,并通过多租户技术给使用者提供存储资源,在此过程中,数据可以在存储资源池中跨节点、跨数据中心流动。
全局命名空间有以下三种主要技术方案
(1)算法定位
对于这种实现,数据访问定位快,但算法是固定的。
(2)命名空间管理
实现简单,但用户需要感知一级目录,不能完全做到无感知地访问数据。
(3)动态子树
理论上可以解决海量数据访问问题,但因算法过于灵活,工程化实现难度高,到现在Cephfs也没有得到商用。
多租户技术
在云存储技术中,多租户技术是为了实现不同使用者之间的资源分配、隔离和共享。
在大多数多租户云存储体系中,采用租户、子租户和用户3个层次实现资源分配。租户之间采用物理隔离,同一个租户下的子租户为逻辑隔离,共用物理设备。用户为子租户下的服务终端,同样采用逻辑隔离方法。
虚拟化实施层次
根据不同的虚拟化实现位置,虚拟化还可以分为基于主机虚拟化、基于存储设备虚拟化和基于存储网络虚拟化。
4.2分布式存储
(1)分布式块存储
块存储就是服务器直接通过读写储存空间中的一个或一段地址来存取数据。
优点:读取效率高
(2)分布式对象存储
对象存储是为海量数据提供Key-Value这种通过键值查找数据文件的存储模式。
优点:具有高可扩展性,支持数据的并发读写。接口简单,适合处理海量、小数据的非结构化数据。
缺点:一般不支持数据的随机写操作。
(3)分布式文件系统
文件存储系统可提供通用的文件访问接口,实现文件与目录操作、文件访问、文件访问控制等功能。
目前的分布式文件系统存储的实现有软硬件一体和软硬件分离两种方式。
4.3数据缩减
(1)自动精简配置
利用虚拟化方法减少物理存储空间的分配,最大限度提升存储空间利用率。
(2)自动存储分层
主要用来帮助数据中心最大限度地降低成本和复杂性
(3)重复数据删除
通过删除数据集中重复的数据,只保留其中一份,从而消除冗余数据。
4.4负载均衡
在云存储中,除了在网络边缘实现DNS动态均匀解析的负载均衡设备,还有在系统内部的负载均衡机制,即在节点资源之间的负载均衡。
二、大数据存储
1.大数据存储的特点和挑战
容量问题、延迟问题、安全问题、成本问题、数据的积累、灵活性
2.储存系统架构
直连式存储(DAS)存储设备直接与主机系统相连
适用环境:(1)服务器地理分布很分散,通过SAN或NAS 互联困难
(2)存储系统必须直接与应用服务器连接
(3)小型网络
缺点:扩展性差、资源利用率低、可管理性差、异构化严重
网络附加存储(NAS)采用直接与网络介质相连的特殊设备实现数据存储的模式。
NAS的物理存储器件需要专用的服务器和专门的操作系统。
优点:(1)即插即用
(2)专用操作系统支持不同的文件系统,从而可以支持应用服务器不同操作系统之间的文件共享
(3)专用服务器上经过优化的文件系统提高了文件的访问效率
(4)独立于应用服务器,即使应用服务器故障或者停止工作,仍然可以读出数据
缺点:(1)共用网络的模式使网络带宽成为存储性能的瓶颈
(2)NAS访问要经过文件系统格式转换,故只能以文件一级访问,不适合块级的应用。
存储区域网络(SAN)
存储区域网络是指存储设备相互连接并与服务器群相连而成的网络,创造了存储的网络化。
基本组成:
接口、连接设备和通信控制协议
SAN支持的功能:档案数据归档和检索、备份与恢复、存储设备间的数据迁移、磁盘镜像技术和网络服务器间数据共享等
在iSCSI协议出现后,为了区分,SAN被分为FC SAN和IP SAN
FC SAN的缺陷:兼容性差、成本高昂、扩展能力差。
IP SAN 具有以下优点:
高扩展性、已经验证的传输设备保证运行的可靠性、数据集中、总体拥有成本低、可以实现远程数据复制和灾难恢复。
3.新兴数据库技术
(1)NoSQL
泛指非关系型数据库。
NoSQL系统普遍采用的一些技术:简单数据模型、元数据和应用数据的分离、弱一致性
NoSQL的优势:避免了不必要的复杂性、高吞吐量、高水平扩展能力和低端硬件集群、避免了昂贵的对象—关系映射。
NoSQL的缺点:数据模型和查询语言未经数学验证、不支持ACID特性、功能简单、没有统一的查询模型。
(2)NewSQL
NewSQL是指这样一类新式的关系型数据库管理系统,针对OLTP(读—写)工作负载,追求提供和NoSQL系统相同的扩展性能,且仍然保持ACID和SQL等特性
NewSQL主要包括两类系统:拥有关系型数据库产品和服务,并将关系模型的好处带到分布式架构上;或者提高关系数据库的性能使之达到不用考虑水平扩展问题的程度。
这里写图片描述

大数据存储方式概述 随着信息社会的发展,越来越多的信息被数据化,尤其是伴随着Internet的发展,数 据呈爆炸式增长。从存储服务的发展趋势来看,一方面,是对数据的存储量的需求越来 越大,另一方面,是对数据的有效管理提出了更高的要求。首先是存储容量的急剧膨胀,从 而对于存储服务器提出了更大的需求;其次是数据持续时间的增加。最后,对数据存储 的管理提出了更高的要求。数据的多样化、地理上的分散性、对重要数据的保护等等都 对数据管理提出了更高的要求。随着数字图书馆、电子商务、多媒体传输等用的不断发 展,数据从GB、TB到PB量级海量急速增长。存储产品已不再是附属于服务器的辅助设备 ,而成为互联网中最主要的花费所在。海量存储技术已成为继计算机浪潮和互联网浪潮之 后的第三次浪潮,磁盘阵列与网络存储成为先锋。 1. 海量数据存储简介 海量存储的含义在于,其在数据存储中的容量增长是没有止境的。因此,用户需要不 断地扩张存储空间。但是,存储容量的增长往往同存储性能并不成正比。这也就造成了 数据存储上的误区和障碍。海量存储技术的概念已经不仅仅是单台的存储设备。而多个 存储设备的连接使得数据管理成为一大难题.因此,统一平台的数据管理产品近年来受到 了广大用户的欢迎.这一类型产品能够整合不同平台的存储设备在一个单一的控制界面上 ,结合虚拟化软件对存储资源进行管理。这样的产品无疑简化了用户的管理。 数据容量的增长是无限的,如果只是一味的添加存储设备,那么无疑会大幅增加存储 成本。因此,海量存储对于数据的精简也提出了要求。同时,不同应用对于存储容量的 需求也有所不同,而应用所要求的存储空间往往并不能得到充分利用,这也造成了浪费 。 针对以上的问题,重复数据删除和自动精简配置两项技术在近年来受到了广泛的关注 和追捧。重复数据删除通过文件块级的比对,将重复的数据块删除而只留下单一实例。 这一做法使得冗余的存储空间得到释放,从客观上增加了存储容量。 2. 企业在处理海量数据存储中存在的问题 目前企业存储面临几个问题,一是存储数据的成本在不断地增加,如何削减开支节约 成本以保证高可用性;二是数据存储容量爆炸性增长且难以预估;三是越来越复杂的环 境使得存储的数据无法管理.企业信息架构如何适应现状去提供一个较为理想的解决方案 ,目前业界有几个发展方向。 1.存储虚拟化 对于存储面临的难题,业界采用的解决手段之一就是存储虚拟化。虚拟存储的概念实 际上在早期的计算机虚拟存储器中就已经很好地得以体现,常说的网络存储虚拟化只不 过是在更大规模范围内体现存储虚拟化的思想。该技术通过聚合多个存储设备的空间, 灵活部署存储空间的分配,从而实现现有存储空间高利用率,避免了不必要的设备开支 . 存储虚拟化的好处显而易见,可实现存储系统的整合,提高存储空间的利用率,简化 系统的管理,保护原有投资等。越来越多的厂商正积极投身于存储虚拟化领域,比如数 据复制、自动精简配置等技术也用到了虚拟化技术.虚拟化并不是一个单独的产品,而是 存储系统的一项基本功能。它对于整合异构存储环境、降低系统整体拥有成本是十分有 效的。在存储系统的各个层面和不同应用领域都广泛使用虚拟化这个概念.考虑整个存储 层次大体分为应用、文件和块设备三个层次,相应的虚拟化技术也大致可以按这三个层 次分类. 目前大部分设备提供商和服务提供商都在自己的产品中包含存储虚拟化技术,使得用 户能够方便地使用。 2.容量扩展 目前而言,在发展趋势上,存储管理的重点已经从对存储资源的管理转变到对数据资 源的管理。随着存储系统规模的不断扩大,数据如何在存储系统中进行时空分布成为保 证数据的存取性能、安全性和经济性的重要问题。面对信息海量增长对存储扩容的需求 ,目前主流厂商均提出了各自的解决方案.由于存储现状比较复杂,存储技术的发展业界 还没有形成统一的认识,因此在应对存储容量增长的问题上,尚存在很大的提升空间。 技术是发展的,数据的世界也是在不断变化的过程中走向完美。企业信息架构的"分"与 "合"的情况并不绝对.目前、出现了许多的融合技术,如 NAS与SAN的融合,统一存储网等等.这些都将对企业信息架构产生不同的影响。至于到底 采用哪种技术更合适,取决于企业自身对数据的需求。 3. 海量数据存储技术 为了支持大规模数据的存储、传输与处理,针对海量数据存储目前主要开展如下三个 方向的研究: 1. 虚拟存储技术 存储虚拟化的核心工作是物理存储设备到单一逻辑资源池的映射,通过虚拟化技术, 为用户和应用程序提供了虚拟磁盘或虚拟卷,并且用户可以根据需求对它进行任意分割 、合并、重新组合等操作,并分配给特定的主机或应用程序,为用户隐藏或屏蔽了具体的 物理设备的各种物理特性。存储虚拟化可以提高存储利用率,降低成本,简化存储管理, 而基于网络的虚拟存储
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值