目前,数据仓库一词尚没有一个统一的定义,著名的数据仓库专家W.H.Inmon在其著作《Building the Data Warehouse》一书中给予如下描述:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。
根据数据仓库概念的含义,数据仓库拥有以下四个特点:
1、面向主题。操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。
2、集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
3、相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
4、反映历史变化。操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们做出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。因此,从产业界的角度看,数据仓库建设是一个工程,是一个过程。
整个数据仓库系统是一个包含四个层次的体系结构,具体由下图表示。
<script type="text/javascript" src="http://static.blog.csdn.net/scripts/SyntaxHighlighter/shCore-src.js"></script><script type="text/javascript" src="http://static.blog.csdn.net/scripts/ZeroClipboard/ZeroClipboard.js"></script><script type="text/javascript" src="http://static.blog.csdn.net/scripts/article_code.js"></script><script type="text/javascript" src="http://medal.blog.csdn.net/scripts/show.js"></script><script type="text/javascript" src="http://medal.blog.csdn.net/showblogmedal.ashx?blogid=8665"></script><script type="text/javascript">document.write("<img src=http://counter.csdn.net/pv.aspx?id=24 border=0 width=0 height=0>");</script><script type="text/javascript" src="http://www.csdn.net/ui/scripts/Csdn/counter.js"></script><script type="text/javascript" src="http://csdnimg.cn/pubfooter/js/publib_footer.js"></script>
根据数据仓库概念的含义,数据仓库拥有以下四个特点:
1、面向主题。操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。
2、集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
3、相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
4、反映历史变化。操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们做出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。因此,从产业界的角度看,数据仓库建设是一个工程,是一个过程。
整个数据仓库系统是一个包含四个层次的体系结构,具体由下图表示。
![]() 数据仓库系统体系结构 |
| ·数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于RDBMS中的各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等等; ·数据的存储与管理:是整个数据仓库系统的核心。数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)。 ·OLAP服务器:对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。其具体实现可以分为:ROLAP、MOLAP和HOLAP。ROLAP基本数据和聚合数据均存放在RDBMS之中;MOLAP基本数据和聚合数据均存放于多维数据库中;HOLAP基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。 ·前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具主要针对数据仓库。 |
上一篇:
五种提高 SQL 性能的方法
下一篇:
什么是联机分析处理(OLAP)
<script type="text/javascript"> new Ad(4, 'ad_cen'); </script>
<script type="text/javascript"> var fileName = '81703'; var commentscount = 1; var islock = false </script><script type="text/javascript" src="http://static.blog.csdn.net/scripts/comment.js"></script>
<script type="text/javascript"> new Ad(5, 'ad_bot'); </script>
文章存档
<!--归档统计-->
2008年09月(4)
2007年09月(1)
2007年06月(1)
2007年04月(1)
2007年03月(4)
2006年12月(1)
2006年10月(4)
2006年09月(1)
2006年08月(3)
2006年07月(2)
2006年06月(1)
2006年05月(2)
2006年04月(2)
2006年03月(2)
2006年02月(5)
2006年01月(6)
2005年12月(13)
2005年11月(13)
2005年10月(24)
2005年09月(30)
2005年08月(20)
2005年07月(4)
2005年06月(18)
2005年05月(15)
2005年04月(40)
2005年03月(51)
2005年02月(31)
2005年01月(25)
2004年12月(48)
2004年11月(32)
2004年10月(61)
2004年09月(27)
2004年08月(123)
2004年07月(131)
2004年06月(17)
阅读排行
- 漫谈EJB (285683)
- Struts原理与实践(三) (43329)
- JDBC系列教程(三)---语句 (23075)
- JFreeChart介绍及经典入门资料 (20710)
- API函数大全 (19099)
- 提升数据访问层的性能(二) (17968)
- J2EE 应用程序中的数据管理和数据持久... (14969)
- JAVA字符集 (14756)
- [转载]真正的程序员从不…… (14481)
- 在Eclipse中使用Hibernate (13435)
评论排行
- [转载]真正的程序员从不…… (116)
- 我的留言本 (68)
- 你还在用if else吗 (47)
- C#就是Java只不过差了一点点 (33)
- JDBC 概述(一) (16)
- 程序员是怎么喝酒的 (16)
- 当我们不再年轻 (14)
- 不要因为工作不好而辞职 (12)
- 目前最好的JSP分页技术 (10)
- 提高JSP应用程序运行速度的七大绝招 (10)
推荐文章
<script type="text/javascript" src="http://static.blog.csdn.net/scripts/ad.js"></script><script type="text/javascript"> new Ad(12, 'ad_commend'); </script>
最新评论
- Iterator和ListIterator的不同使用方法
sweetyi: 非常好,很清楚
- 破除java神话之五:等待的线程是按照优先级顺序被唤醒的
wodezhh789: 好文章啊
- Iterator和ListIterator的不同使用方法
jayaiwushuang: 明白!
- 重用的设计一般方法
lwyiwan: 楼主厉害,想好好学习楼主所提供的方法,有些地方不是很明白。。希望楼主能帮忙贴一个具体的程序例子,以供...
- 怎样成为优秀的软件模型设计者
samozihu: 正确的废话能做到的人却不多
- 加密解密、信息摘要算法收集
xlyue2011: (加密与数字签名),如果知道公钥(PK),有没有办法解出密钥(SK),还是要提供更多的信息才能解出密...
- 数据库系统防黑客入侵技术综述
Nith_: ,转走了学习下啊。
- Java中数据库事务处理的实现
kangtamo: 明天去单位就试验一下JDBC方式的事务处理。
- 关联规则挖掘算法综述
donglinna: 看看
- ORACLE常用傻瓜问题1000问
匿名用户:
该博客包含大量编程相关内容,涉及Java、C#等编程语言,以及数据库开发应用。有漫谈EJB、Struts原理与实践、JDBC系列教程等技术文章,还提及数据库事务处理、防黑客入侵技术,以及关联规则挖掘算法综述等内容。


7035

被折叠的 条评论
为什么被折叠?



