数据仓库是什么
数据仓库是什么
数据仓通常用于数据挖掘、商业情报、覆盖山海并处理单题近些年来,企业电子商务并不限于单系统问题,如流程平滑或完全存储交易记录中心往往更多关注多型信息系统整合问题,如何有效收集和提交数据,对企业运营效率产生越来越具体的影响。数据仓概念指仓库存储概念数据库不仅存储物理素材和成品,还整合信息系统中的抽象文件数据并转换成物理数据仓库
数据库、数据仓库和数据仓库系统之间的差异
数据仓库数据库存储大量数据,但与数据库不同。数据库中存储的数据与运维相关联,数据仓将组织数据并转至另一数据系统分析数据数据仓通常指存储综合数据的数据库,数据仓系统一般指整个决策支持系统,包括系统软件硬件、数据报表
数据仓库名由Bill Inmon于1990年创建,书中“数据仓库是什么”, 他认为数据仓库的数据收集有4个特征面向对象、集成性、时差性和非扰动性按照这些特征,数据仓可以为决策管理系统提供数据处理数据仓库的另一代表Ralph Kimball相信书籍“数据仓库工具箱”,即数据仓库是可查询分析的交易数据结构拷贝
面向对象表示数据仓可以集中信息 与特定主题相关 而不仅仅是公司当前操作信息整合表示存储数据仓库从不同源码合并并持续组织变换时间表示数据仓库识别特定时间点存储数据无损表示数据仓库中的数据只会继续增加而不会删除,使管理方能够获得业务连续性观察
数据仓库类型
数据仓库可划分为企业数据仓库、运维数据存储器和数据mart一些人认为,除企业数据仓库和数据mart外,数据仓库还可以添加虚拟数据仓库和混合数据仓库
- 企业数据仓库
- 运维数据提供程序
- 数据市场
- 虚拟数据仓库
- 混合数据仓库
- 数据仓库的好处
企业数据仓包含全企业信息并包含几个题目,如客户、产品、企业等,可用于决策支持,包括实时资料和汇总资料
操作与数据仓库信息性相关ODS提供详细数据,特别是最新综合数据,可满足实时报告需求运维数据存储器只能分析最近数据无法分析较长期历史数据比尔英蒙1995年出版《运维数据存储器》他认为ODS资料收集面向主题并综合使用数据存储的不同之处在于ODS数据会丢失,而当前值为主值。数据库不包含历史和累积数据,ODS数据可实时收集并整合数据同步更新频率显示,ODS还分数据传输和存储
数据仓库覆盖全公司的数据和人员,而数据mart仅包含特定范围的数据,用户锁住某个工作组的人员一组数据可组成企业数据仓库,反之亦然假设公司采用模式同时多数据超市存在,同一维数据定义上的差异将使数据市场变成数据岛数据岛对企业整体来说是一个大问题整合功能仅限于部门分组,无法扩展至整体信息整合跨部数据分析无法进行,不同作业属性无法连接跨部数据分析前数据市场结构只能继续堆叠累积,无法整合
数据仓库建设目前仍多半从数据marts开始,因为数据marts所采维模式比个人关系模型更容易理解,分析速度更快,但仍然取决于企业和用户的需要。
企业直接使用现有操作数据库并帮助某些中间工具有效数据处理建设速度快,成功机率高,实时数据分析可实现
数据mart表示为虚拟数据仓库,它变成混合数据仓库所需存储空间小于企业数据存储空间数据存储于标准数据环境后,数据重组过程比通过程序读取运行数据简单,不会影响运行数据混合数据仓库还能够处理数据市场遇到的岛屿现象,并可以通过虚拟方法灵活响应不同需求
数据仓可实现跨数据源整合,以便不同数据库中的数据可相互连接建立信息系统肯定解决对定期输出和即时存储数据的需求问题企业想从信息系统检索各种综合统计信息后,立即会面临不同数据源问题,无法同时跨系统无法存取和进一步自动化处理分析数据仓库可被视为提取数据单窗口通过信息系统自动转换,人工交换文件时出错的可能性可以减少。
摘要
数据仓库开发最初只要求审查汇总数据,然后每笔事务数据开始存放在数据仓库内分析客户群和产品之间的关系目前,除存储汇总数据和交易数据外,它还保留详细数据分析客户购物
历史过程显示公司过去只想知道总营业量,但现在公司更关心客户在事务处理中如何选择。
数据仓库常与数据挖掘和商业情报比较用于营销业务时,可使用它理解客户习惯,允许公司预测客户行为以进行适当的推广内部数据仓库可用于内部操作评审允许高级执行官从具体资料和证据中发现不良操作条件的症结