数据仓库的类型
什么是数据仓库?
数据仓库通常用于数据挖掘、商业智能,可以覆盖山海,也可以处理单一主题。近年来,企业的电子商务已不局限于单一系统的问题,如交易记录的存储过程是否顺畅或完整。它往往更加关注异构信息系统的集成,如何有效地收集和呈现数据,对企业运营效率的影响越来越具体。数据仓库的概念是指仓库存储的概念。它不仅存储物理原材料和成品,还将信息系统中的抽象文件数据集成,并将其转换为物理数据仓库。
数据库、数据仓库和数据仓库系统的区别
数据仓库是存储大量数据的数据库,但它与数据库不同。存储在数据库中的数据与操作有关,数据仓库在数据积累一段时间后,会对数据进行整理和传输到另一个数据系统中进行数据分析。数据仓库通常是指存储集成数据的数据库,数据仓库系统一般是指整个决策支持系统,包括系统软硬件、数据和报表。
“数据仓库”一词是由Bill Inmon在1990年提出的,因此他被称为数据仓库之父。在《什么是数据仓库》一书中,他认为数据仓库的数据收集有4个特点。:面向主题、集成、时变、非易失性。根据这些特点,数据仓库可以为决策管理系统提供数据进行处理。数据仓库的另一位代表Ralph Kimball在《the data warehouse Toolkit》一书中认为,数据仓库是可以查询和分析的事务数据的结构化副本。
“面向主题”意味着数据仓库可以集中与特定主题相关的信息,而不仅仅是公司当前的运营信息;“集成”是指存储在数据仓库中的数据从不同的来源合并,并保持一致的组织;“根据时间变化”表示数据仓库在特定的时间点标识存储的数据;“不丢失”意味着数据仓库中的数据只会继续增加而不会被删除,这使得管理层能够获得业务连续性观察。
数据仓库的类型
数据仓库可以分为企业数据仓库(EDW)、运营数据存储和数据集市。有人认为,除了企业数据仓库和数据集市之外,数据仓库还可以增加虚拟数据仓库和混合数据仓库。
- 企业数据仓库
- 操作数据提供者
- 市场数据
- 虚拟数据仓库
- 混合数据仓库
- 数据仓库的好处
企业数据仓库包含整个企业的信息,由客户、产品、业务等多个主题组成,可用于决策支持,包括实时信息和聚合信息。
“操作性”是与数据仓库的信息量相关的。ODS提供详细的数据,特别是近期合并的数据,可以满足实时报表的需求。操作数据存储只能分析最近的数据,不能分析长期的历史数据。Bill Inmon在1995年出版了《操作数据存储》一书。他认为ODS的数据收集是面向主题的,是集成化的。但与数据存储不同的是,ODS的数据会丢失,以当前值为主。它不包含历史和累积数据,ODS数据可以实时采集和集成。根据数据同步更新的频率,ODS还对数据传输和存储进度进行了分级。
与数据仓库的定义大致相同,数据仓库涵盖整个公司的数据和人员,而数据集市只包含特定范围的数据,用户会锁定某个工作组的人员。一组数据集市可以形成一个企业数据仓库,反之亦然。假设某公司采用同时存在多个数据超市的模式,同一维度数据定义的差异会使数据市场变成一个数据孤岛。对于整个企业来说,数据孤岛是个大问题。集成功能仅限于部门组,不能扩展到整体信息的集成。无法进行跨部门数据分析,无法实现不同工作属性的联动。跨部门的数据分析,以往的数据市场结构只能以堆叠的方式不断积累,无法整合。
如今,数据仓库的建设大多还是从数据集市开始,因为数据集市采用的维度模型比个体关系模型更容易理解,分析速度也更快,但还是要看企业和用户的需求。
企业直接使用现有的运营数据库,并辅助一些中间工具进行有效的数据处理。施工速度快,成功几率高,可实现实时数据分析。
如果数据集市表示为虚拟数据仓库,则它将成为混合数据仓库。存储空间要求低于企业数据存储。由于数据已经存储在标准化的数据环境中,因此数据重组的过程会比通过应用程序读取运行数据简单,而且不会影响运行数据。混合数据仓库还可以应对数据市场中遇到的数据孤岛现象,通过虚拟方式灵活响应不同需求。
数据仓库可以实现跨数据源的集成,使不同数据库中的数据可以相互链接。信息系统的建立当然解决了数据的定期输出和即时存储的需要。企业一旦要从信息系统中检索各类综合统计信息,马上就会面临数据源不同的问题,同时跨系统是不可能的。访问,以及进一步的自动化处理和分析是不可能的。数据仓库可以看作是提取数据的单一窗口。通过信息系统的自动转换,可以减少手动交换文件时出错的可能性。
总结
数据仓库的发展最初只需要对汇总数据进行审核,然后开始将每笔交易数据保存在数据仓库中,分析客户群体与产品之间的关系。目前,除了存储汇总数据和交易数据外,它还保留了详细的数据来分析客户的购物情况。
这一历史过程表明,企业过去只想知道总营业额,但现在他们更关心客户在交易过程中如何做出选择。
数据仓库经常与数据挖掘和商业智能相比较。当用于营销业务时,它可以用来了解客户的习惯,让公司预测客户的行为,以便进行适当的促销;在内部,数据仓库可以用于内部操作。通过评估,高管可以从具体的数据和证据中找出不良经营状况的症结所在。