数据仓库简介



-- DW 数据仓库
产生需求:
在大量数据中提取所需信息。
有些企业的数据存储在不同的逻辑和物理媒介上 不集成  得到的数据结果很可能不一致 或者说很片面。
用户希望以所有可能的方式选择、分组和操作数据。
为用户显示重要的数据。
用正确和完整的数据来作为分析的基础。
-- DW数据仓库的显著标示和关键需求
为不熟悉数据结构的用户提供可访问性 或者是可读性比较高的数据报表。 accessibility
基于企业某型的数据集成 适合该企业的数据立方体。
查询的灵活性!!!---? 从现有信息中获取最大利益
有助于针对目标分析和有效分析
多维表示--- 给用户比较只管的信息图或报表
集成数据的正确性和完整性
-- Define DW
数据仓库是面向主题的 依赖于企业的特定概念。 比如客户、产品、销售和订单。
数据绝不能从数据仓库中删除
数据仓库的数据采用一种多维表示方法,数据就是空间中的一个点,其纬度对应着多个可能的分析纬度。(每隔空间点代表企业中发生的一个事件,并且由一组与决策制定过程相关的度量描述)
@比如某年某月某个产品的销售量
-- note
数据仓库会利用到多个数据源 因此有必要建立一个统一的试图。
 OLTP 搜索某个客户的数据以插入一个新的客户订单
 OLAP 动态、多维分析的数据查询


数据仓库的体系结构
事务处理和分析处理要分开。-- 分离性
数据量和用户需求的增长,升级硬件和软件体系必须很容易。 -- 可扩展性
战略数据和企业核心数据都在其中,访问安全和监控是必要的。 --安全性
还有可管理型。


体系结构大致可以分为两种
面向结构的和应用不同数据层来创建面向企业或面向部门的数据仓库试图。


单层体系结构:
不常用,目标是创建最小化存储的数据量。也就是说需要研究的重点是消除数据的冗余。


两层体系结构
典型体系结构。物理可用数据源层和数据仓库层的分离 由4个数据流阶段组成。


数据源层:异构数据源和公司以外的数据
数据准备层:ETL部分 抽取、清洗以清除不一致和填充空白 最终将异构数据源合并成一个公用模式
数据仓库层:数据仓库 数据集市 元数据
分析曾:OLAP report等

数据集市是存储在数据仓库的数据的子集或聚合。对大中型企业的数据仓库系统非常有用。比数据仓库小,性能更高。
OLTP 在最详细级别管理当前数据
OLAP 管理历史和汇总数据

三层体系结构里 第三层为协调数据层或操作性数据存储

这个实体化集成和清理源数据之后获取的操作性数据。
协调数据层为整个企业提供创建了公共参考数据模型,同时清晰的分开了源数据提取和集成的问题与数据仓库填充的问题。但其存在会造成数据冗余。

评论

此博客中的热门博文

Kettle设计中 判断的基准和多数据流时的主键唯一性

9月的诚品书单[待修订]

引用 vista下.lnk快捷方式打开方式修复