数据仓库的类型
什么是数据仓库?
数据仓库通常用于数据挖掘、商业智能,可以覆盖千山万水,也可以处理单一主题。近年来,企业的电子商务已经不局限于流程是否顺畅、交易记录是否完整等单一系统的问题。它往往更加关注异构信息系统的集成,如何有效地收集和呈现数据,对企业的运营效率产生越来越具体的影响。数据仓库的概念是指仓库存储的概念。它不仅存储物理的原材料和成品,还将抽象的文件数据集成到信息系统中,并将其转换为物理的数据仓库。
数据库、数据仓库和数据仓库系统的区别
数据仓库是存储大量数据的数据库,但它与数据库不同。存储在数据库中的数据是与操作相关的,数据仓库在数据积累一段时间后,将这些数据组织起来,传递给另一个数据系统进行数据分析。数据仓库通常是指存储集成数据的数据库,数据仓库系统一般是指整个决策支持系统,包括系统软硬件、数据和报表。
“数据仓库”一词是由Bill Inmon在1990年创造的,因此他被称为数据仓库之父。在《什么是数据仓库》一书中,他认为数据仓库的数据收集有4个特点。:面向主题、集成、时变和非易变。根据这些特点,数据仓库可以为决策管理系统提供数据进行处理。数据仓库的另一位代表人物Ralph Kimball在《数据仓库工具包》一书中认为,数据仓库是可以查询和分析的事务数据的结构化副本。
“面向主题”意味着数据仓库可以集中与特定主题相关的信息,而不仅仅是公司当前的运营信息;“集成”意味着存储在数据仓库中的数据是由不同来源的数据合并而成,并保持一致的组织;“随时间变化”表示数据仓库在特定时间点识别所存储的数据;“无损失”意味着数据仓库中的数据只会继续增加而不会被删除,这使得管理层能够获得业务连续性观察。
数据仓库的类型
数据仓库可分为企业数据仓库(EDW)、运营数据存储和数据集市。有人认为,除了企业数据仓库和数据集市之外,数据仓库还可以添加虚拟数据仓库和混合数据仓库。
- 企业数据仓库
- 操作数据提供者
- 市场数据
- 虚拟数据仓库
- 混合数据仓库
- 数据仓库的好处
企业数据仓库包含整个企业的信息,由客户、产品、业务等多个主题组成,可用于决策支持,包括实时信息和聚合信息。
“操作”与数据仓库的信息量有关。ODS提供了详细的数据,特别是最近的合并数据,可以满足实时报告的需求。操作数据存储只能分析最近的数据,不能分析较长期的历史数据。Bill Inmon在1995年出版了《操作性数据存储》一书。他认为,ODS的数据收集是面向主题的、综合性的。但与数据存储不同的是,ODS的数据会丢失,以当前值为主。它不包含历史和累积数据,ODS数据可以实时收集和集成。根据数据同步更新的频率,ODS也有数据传输和存储调度的等级。
与数据仓库的定义大致相同,数据仓库涵盖了整个公司的数据和人员,而数据集市只包含特定范围的数据,用户会锁定某个工作组的人员。一组数据集市可以形成一个企业数据仓库,反之亦然。假设公司采用多个数据超市同时存在的模式,同一维度数据定义的差异会使数据市场变成数据孤岛。数据孤岛对于整个企业来说是一个大问题。集成功能仅限于部门组,不能扩展到整体信息的集成。无法进行跨部门数据分析,无法将不同的工作属性进行关联。跨部门数据分析,以往的数据市场结构只能以堆叠的方式继续积累,无法整合。
如今,数据仓库的建设仍然大多从数据集市开始,因为数据集市采用的维度模型比个体关系模型更容易理解,分析速度也更快,但仍然取决于企业和用户的需求。
企业直接使用现有的运营数据库,并辅助一些中介工具进行有效的数据处理。施工速度快,成功率高,可实现实时数据分析。
如果数据集市被表示为虚拟数据仓库,那么它就变成了混合数据仓库。需要的存储空间小于企业数据存储。由于数据已经存储在标准化的数据环境中,因此数据重组的过程将比通过应用程序读取运行数据更简单,并且不会影响运行数据。混合数据仓库还可以应对数据市场中遇到的数据孤岛现象,通过虚拟的方式灵活应对不同的需求。
数据仓库可以实现跨数据源的集成,使不同数据库中的数据可以相互链接。信息系统的建立无疑解决了数据的定期输出和即时存储的需要。企业一旦要从信息系统中检索各种综合统计信息,就会马上面临数据源不同的问题,而且不可能同时跨系统。访问和进一步的自动化处理和分析是不可能的。数据仓库可以看作是提取数据的单一窗口。通过信息系统的自动转换,可以减少人工交换文件时出错的可能性。
总结
数据仓库的开发最初只需要对汇总数据进行审查,然后开始将每笔交易数据保存在数据仓库中,以分析客户群与产品之间的关系。目前,除了存储汇总数据和交易数据外,还保留了详细的数据来分析客户的购物行为。
这一历史过程表明,企业过去只想知道总营业额,现在更关心的是客户在交易过程中如何做出选择。
数据仓库经常与数据挖掘和商业智能相比较。当用于营销业务时,它可以用来了解顾客的习惯,让企业预测顾客的行为,以便进行适当的促销;在内部,数据仓库可用于内部操作。通过评估,高管可以从具体的数据和证据中找出经营状况不佳的症结所在。