数据仓库分层的原因
1通过数据预处理提高效率,因为预处理,所以会存在冗余数据
2如果不分层而业务系统的业务规则发生变化,就会影响整个数据清洗过程,工作量巨大
3通过分层管理来实现分步完成工作,这样每一层的处理逻辑就简单了
标准的数据仓库分层:ods(临时存储层),pdw(数据仓库层),mid(数据集市层),app(应用层)
ods:历史存储层,它和源系统数据是同构的,而且这一层数据粒度是最细的,这层的表分为两种,一种是存储当前需要加载的数据,一种是用于存储处理完后的数据。
pdw:数据仓库层,它的数据是干净的数据,是一致的准确的,也就是清洗后的数据,它的数据一般都遵循数据库第三范式,数据粒度和ods的粒度相同,它会保存bi系统中所有历史数据
mid:数据集市层,它是面向主题组织数据的,通常是星状和雪花状数据,从数据粒度将,它是轻度汇总级别的数据,已经不存在明细的数据了,从广度来说,它包含了所有业务数量。从分析角度讲,大概就是近几年
app:应用层,数据粒度高度汇总,倒不一定涵盖所有业务数据,只是mid层数据的一个子集。
数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持。数据仓库的context也可以理解为:数据源,数据仓库,数据应用
数据仓库可以理解为中间集成化数据管理的一个平台
etl(抽取extra,转化transfer,装载load)是数据仓库的流水线,也可以认为是数据仓库的血液。
数据仓库的存储并不需要存储所有原始数据,因为比如你存储冗长的文本数据完全没必要,但需要存储细节数据,因为需求是多变的,而且数据仓库是导入数据必须经过整理和转换使它面向主题,因为前台数据库的数据是基于oltp操作组织优化的,这些可能不适合做分析,面向主题的组织形式才有利于分析。
多维数据模型就是说可以多维度交叉查询和细分,应用一般都是基于联机分析处理(online analytical process OLAP),面向特定需求群体的数据集市会基于多位数据模型构建
而报表展示就是将聚合数据和多维分析数据展示到报表,提供简单和直观的数据。
元数据,也叫解释性数据,或者数据字典,会记录数据仓库中模型的定义,各层级之间的映射关系,监控数据仓库的数据状态和etl的任务运行状态。一般通过元数据资料库来统一存储和管理元数据。
数据仓库是面向主题的、集成的、稳定的、不同时间的数据的集合,用于支持经营管理中的决策制定过程。
基于主题而组织的数据便于面向主题分析决策,它所有的集成性、稳定性及时间特征使其成为了分析型数据,为决策层提供决策支持。数据仓库系统也是一个管理系统,它由三部分组成:数据仓库,数据仓库管理系统,数据仓库工具。
仓储物流配送供应链服务商自主研发的物流仓储配送全网系统就成为了电子商务的新宠,不仅可以绑定天猫、淘宝、京东、一号店等电商后台物流平台,帮助企业卖家直接后台下单发货,而且更为重要的是能够为不同的企业卖家提供不同的仓储物流配送解决方案,智工厂可以提供低成本的物流配送模式,也可以提供最快速的物流配送方案。
? (一)数据源 是数据仓库系统的基础,是整个系统的数据源泉。
通常包括企业内部信息和外部信息。内部信息包括存放于 RDBMS 中的各种业务处理数据和各类文档数据。
外部信息包括各类法律法规、市场信息和竞争对手的信息等等; (二)数据的存储与管理 是整个数据仓库系统的核心。 数据仓库的真正关键是数据的存储和管理。
数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。
针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。 数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)。
(三)OLAP(联机分析处理)服务器 对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。其具体实现可以分为:ROLAP(关系型在线分析处理)、MOLAP(多维在线分析处理)和 HOLAP(混合型线上分析处理)。
ROLAP 基本数据和聚合数据均存放在 RDBMS 之中;MOLAP 基本数据和聚合数据均存放于多维数据库中;HOLAP 基本数据存放于RDBMS 之中,聚合数据存放于多维数据库中。 (四)前端工具 主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以数据挖掘及各种基于数据仓库或数据集市的应用开发工具。
其中数据分析工具主要针对 OLAP 服务器,报表工具、数据挖掘工具主要针对数据仓库。 ----------------------------- 由安信公司历经 4 年研发的监测数据管理平台,采用独创的技术架构,在 B/S 架构上融入 C/S 模式,囊括了实验室管理系统、监测站办公自动化、监测站综合业务管理系统、监测数据上报系统等诸多系统,把各个系统有机融合在一起,不同的业务科室展现不同工作页面,内部却又实现了数据共享。
系统页面简单大方,操作轻松方便,在不增加实验室工作量的情况下,能够让监测数据进入系统中,原始记录单等诸多实验室报表可协助生成(不完全生成,需人工签字),随后科室比如质控、综合、主管领导即可对数据进行多层次利用查询,并自动生成各类监测报表。 系统采用流程化工作模式,对不同监测任务实施不同工作流,保证工作的科学和严谨,对于单位内部职工每天待办事宜清晰显示,让内部职工对每天工作都一目了然。
系统工作流程可自由配置,工作单可根据按照配置流转相应单位,并且可以对工作流程进行追踪查询,作为领导可以查看到每一项安排工作的流转情况、完成情况和监测结果。 系统支持短信功能,对于领导等科室一些紧急任务可在系统下达后,立刻用短信通知相应工作人员,对于单位紧急通知等也可以进行短信通知,让监测站的工作更加快捷高效。
系统提供深层次数据挖掘功能,能够根据监测数据,快速提供某监测点的多方位数据,比如历年来某月COD 的监测数据变化,几年来某项监测数据的月平均值变化等等,为监测站领导决策提供科学依据。 系统生成报表功能强大,除自身已包含众多报表外,可迅速生成 WORD 下各种客户要求的监测报表,并且查阅维护方便。
系统作为平台拓展性强,可以融合其他系统与平台上,并且后期功能升级方便不影响前期功能。 目前系统已经在多个地 方监测站运行,从使用效果来看是比较实用的。
数据仓库在中国人民财产保险公司的应用案例 事情要从一封信讲起,去年年底,中国人民财产保险公司信息技术部总经理赵军接到了2003年国际计算机chp(computer-world honors program)大赛主席委员会执行董事daniel morrow先生的亲笔信,告之“人保财险新一代综合业务处理系统”从50多个国家和地区的500多家参赛企业中脱颖而出,荣获美国“计算机世界荣誉奖”提名,顺利进入决赛。
不要小看了这个荣誉,国内金融机构只有招商银行曾经入围过。 “获奖是对企业过去一年中信息化建设的肯定,但是按照惯例,获奖企业都会接下来的一年忙得不亦乐乎”,daniel的信尾赠言又把赵军从喜悦拉回了现实…… 令人紧张的预言 事实上,赵军已经忙的不亦乐乎了,做完核心系统之后,紧接着新型数据仓库构建就上马了。
无独有偶,招商银行自从2002年获chp大奖之后,也是马不停蹄地投入了后台数据库的改造项目。 为什么把精力放到数据仓库上呢?原因是业务系统的发展很大程度上受制于后台数据结构,对金融机构来讲,在加入wto之初就嚷嚷的很凶的“银行客户分级服务”、“保险费率细分”、“风险定价”等一系列服务都受牵制。
比如在2003年初,保监会放开了车险费率,一时间各家保险公司纷纷公布了自己的收费明细,可是细看下来,大家的费率又几乎趋同,比如在个性保费上,各家公司都有一条,就是女性驾驶 员比男性保费下浮20%,但据业内人士介绍,这仅仅是各家公司凭经验作出的判断,对于女性的年龄、教育及家庭背景的差异并没有区别对待。 而美国的保险公司则是,一位女性,30岁,大学文化,有一个小孩,没有赔偿记录,可以享受最多50%的保费优惠。
人家的逻辑就是,受过高等教育的客户要比没有受过高等教育的客户风险低,有孩子的女性责任心要比一般人高,岁数大的人开快车的可能性要小,没有赔偿记录说明驾驶行为规范。 不要以为这只是简单推论,它可是基于成千上万件保单分析的结果。
目前国内各家保险公司显然还不能提供如此精细的费率评估,因为他们现阶段还不能对客户的数据进行有效的分析利用,换句话说技术水平达不到。 “芭蕾”的领舞者 面对金融机构wto保护期即将过时,各家公司都非常着急,希望能够在最短的时间内把数据仓库项目做好。
在这方面,人保成了第一个吃螃蟹的公司。 赵军形象地描绘到,要想让公司能够灵活地应对市场变化,方法只有一个,就是对应用系统和后台数据库重新设计,反映到市场上来,就是采取非常灵活的价格手段,让人保这头“大象”跳“芭蕾”。
当然,系统重做对于一家保险公司来说无异于大换血,而且就人保现在的经验来看,单独完成这项任务也是很困难的。 为此,人保选择了与ibm公司开展合作,希望借用ibm的经验来完成前后台系统的改造。
指挥人保这个大公司跳芭蕾并不容易,除了机构、人员的因素外,信息系统本身也有很多限制。因为过去人保一直采用的是以保单为中心的业务系统和数据库,这虽然在操作上占了一些便宜(主要是效率较高),但是在数据存储上并不科学。
直接的反应就是,如果被保险人买了多张保单,那么在数据库中这个人就会多次出现,在日后数据抽取分析的时候,就会遇到困难。另外,由于应用系统能够收集的数据项目较少,因此开展分析往往意义不大。
为此,ibm向人保推荐了iaa(保险应用架构,insurance application architecture)和iiw(保险信息仓库,insurance information warehouse)两个数据模型,前者是保险公司的核心业务系统架构,后者是数据库架构。 iaa与iiw是ibm从90年开始,和全球40多个发起公司合作开发的,包括了财产险、寿险、再保险等保险应用模型,现今全球有近140个用户在基于这个模型开发产品。
当然,即便有ibm的帮助,要把整个企业数据库和应用系统替换掉也是不可取的,系统迁移的风险不谈,仅仅是数据的导入也已经十分复杂。 为此,人保决定,先对数据分析的关键——iiw进行试点。
人保的想法是,选择一个技术和条件比较好的省会城市做试点,这个城市既要业务多样,又要保单量中等,这样对于试验是比较客观的。经过一个月的仔细比较,最终这个艰巨的任务就落到了人间天堂——浙江杭州。
杭州城下游临安 雷锋塔中寻白娘 西湖水边晓月照 梅家坞中龙井香 杭州确实是一个美不胜收的地方,但 是作为本次iiw项目的参与人,张平(化名)此刻并没有心情游山玩水,因为在他面前,还有太多太多的挑战要克服。 500万的压力 张平来到中保浙江分公司后,主要的任务就是先协助员工把iiw建立起来,此后再把中保浙江分公司的所有的数据取出来,然后按照iiw的数据结构进行转换存储,建立一个标准的信息仓库,最后在此基础上建立两个小的数据集市,进行数据分析试验。
整个试点项目耗资500万元人民币。 在此有必要给不熟悉的读者对数据仓库的概念作一个简要介绍。
顾名思义,数据仓库(data warehouse)就是一个仓库,里面分门别类存放了一个公司所有的数据。光有仓库是不能进行数据分析的,因为仓库中的数据是海量的,如果要对某种信息进行分析,比如客户信息,就要从仓库中抽取所有与客户有。
分层管理器 1、分层管理器架构 分层管理器是实现大范围数据的快速浏览的关键部分,它控制了逐层细化表的结构和元数据的定义和赋值,定义了组件表中的关键信息,给出了空间数据的来源、数据挖掘规则、图层加载范围和图形编辑、输出和保存。
分层管理器有两部分组成,分别为: a) 一组存储于Oracle数据仓库中的空间数据表,用于逐层细化图层中的每个详细信息层,这些表称为组件表; b) 一个空表,包含该表的结构定义和描述组件表的特殊元数据,该表称为逐层细化表。 任何逐层细化应用程序均需要逐层细化表,从中可以了解逐层细化图层中各层的层次关键字描述,以及它们之间的层次关联方式。
进行分层时,分层管理器作为程序的一部分,确定需要添加的子图元所在的图层及其关键字,以便确定在逐层细化图层中需要添加和删除的图元信息。 逐层细化图层是一种特殊的地图图层,它是有自己表结构的空白图层,并用元数据规定了所有加载图层的一些规则和限制,所显示出来的地图信息是按照元数据规定的规则从其它表或数据库中提取出来的。
在地图中显示逐层细化图层时,分层管理器会创建一个临时表,然后将组件表中的图元复制到该临时表中。 逐层细化图层中显示的图元实际上是组件表中图元的副本。
这样就可以灵活的在图层上面加载需要的信息。在应用程序终止时,将丢弃该临时表,为了保存有用的专题图信息,可以对提取出来的图层进行保存。
此时,如果用户查看图层信息时,逐层细化图层仍将是单个图层。 逐层细化表的要求作为分层管理器的组织核心部分,它定义了元数据关键字和三个标准列:关键字、层和标签。
并有着自己的一套语法: (1) 关键字 begin_metadata 标记逐层细化表中元数据部分的开头。 (2) 每行元数据包含两个元素:关键字和值。
所有关键字和值均使用双引号引起来。 (3) 逐层细化表必须包含 \IsDrilldown 关键字,该关键字的值必须为 True。
(4) 每个关键字以“\”(反斜线)开头。 (5) 元数据关键字可以在层次结构中嵌套。
层次结构中的每一层以反斜线 (\) 标记。 (6) 元数据包括 \DDMap\ComponentMaps\ 关键字层次结构。
在该层次结构中为每个组件表指定四个元数据关键字。 分层管理器的分层原理图如图1所示,从图中可以看出,分层管理器有两部分组成:组件表和逐层细化表组成,分层管理器根据系统的要求以数据挖掘的方式从Oracle数据仓库中提取数据,形成组件表中的某个图层,然后确定需要加载图层的名称和图层中的部分,并加载到逐层细化表中。
如果是第一次加载,此时的逐层细化表是空白图层,在加载过程中,逐层细化表不断的进行图元信息的增加和删除,这样会出现每个组件表中的部分信息显示在逐层细化表所示的图层中。这样输出所需要的图层,并对它进行编辑,由于逐层细化表中数据是个组件表中的副本,需要对编辑后的图层进行另存,形成专题图。
分层管理器首先形成空白图层,通过分层管理器用数据挖掘工具从Oracle数据仓库中提取数据,根据分层管理器的元数据规则形成一级的图层,在该图层中,通过响应事件,以确定加载二级图层的图层名称和该图层中的加载部分,相应的加载三级、四级图层数据,在加载的同时,就形成了各种专题图。 当然,分层管理器功能的实现是通过GIS组件(MapX、MO、AO等)和编程语言(VB、VC、Delphi等)来实现的。
声明:本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
蜀ICP备2020033479号-4 Copyright © 2016 学习鸟. 页面生成时间:2.847秒