从目前的数据库及数据仓库建模方法来说,主要分为四类。
第一类是大家最为熟悉的关系数据库的三范式建模,通常我们将三范式建模方法用于建立各种操作型数据库系统。
第二类是Inmon提倡的三范式数据仓库建模,它和操作型数据库系统的三范式建模在侧重点上有些不同。Inmon的数据仓库建模方法分为三层,第一层是实体关系层,也即企业的业务数据模型层,在这一层上和企业的操作型数据库系统建模方法是相同的;第二层是数据项集层,在这一层的建模方法根据数据的产生频率及访问频率等因素与企业的操作型数据库系统的建模方法产生了不同;第三层物理层是第二层的具体实现。
第三类是Kimball提倡的数据仓库的维度建模,我们一般也称之为星型结构建模,有时也加入一些雪花模型在里面。维度建模是一种面向用户需求的、容易理解的、访问效率高的建模方法,也是笔者比较喜欢的一种建模方式。
第四类是更为灵活的一种建模方式,通常用于后台的数据准备区,建模的方式不拘一格,以能满足需要为目的,建好的表不对用户提供接口,多为临时表。
下面简单谈谈第四类建模方法的一些的经验。
数据准备区有一个最大的特点,就是不会直接面对用户,所以对数据准备区中的表进行操作的人只有ETL工程师。ETL工程师可以自己来决定表中数据的范围和数据的生命周期。下面举两个例子:
1)数据范围小的临时表
当需要整合或清洗的数据量过大时,我们可以建立同样结构的临时表,在临时表中只保留我们需要处理的部分数据。这样,不论是更新还是对表中某些项的计算都会效率提高很多。处理好的数据发送入准备加载到数据仓库中的表中,最后一次性加载入数据仓库。
2)带有冗余字段的临时表
由于数据准备区中的表只有自己使用,所以建立冗余字段可以起到很好的作用而不用承担风险。
举例来说,笔者在项目中曾遇到这样的需求,客户表{客户ID,客户净扣值},债项表{债项ID,客户ID,债项余额,债项净扣值},即客户和债项是一对多的关系。其中,客户净扣值和债项余额已知,需要计算债项净扣值。计算的规则是按债项余额的比例分配客户的净扣值。这时,我们可以给两个表增加几个冗余字段,如客户表{客户ID,客户净扣值,客户余额},债项表{债项ID,客户ID,债项余额,债项净扣值,客户余额,客户净扣值}。这样通过三条SQL就可以直接完成整个计算过程。将债项余额汇总到客户余额,将客户余额和客户净扣值冗余到债项表中,在债项表中通过(债项余额*客户净扣值/客户余额)公式即可直接计算处债项净扣值。
另外还有很多大家可以发挥的建表方式,如不需要主键的临时表等等。总结来说,正因为数据准备区是不对用户提供接口的,所以我们一定要利用好这一点,以给我们的数据处理工作带来最大的便利为目的来进行数据准备区的表设计。
一、掌握基础、更新知识。
基本技术怎么强调都不过分。这里的术更多是(计算机、统计知识), 多年做数据分析、数据挖掘的经历来看、以及业界朋友的交流来看,这点大家深有感触的。
数据库查询—SQL 数据分析师在计算机的层面的技能要求较低,主要是会SQL,因为这里解决一个数据提取的问题。有机会可以去逛逛一些专业的数据论坛,学习一些SQL技巧、新的函数,对你工作效率的提高是很有帮助的。
统计知识与数据挖掘 你要掌握基础的、成熟的数据建模方法、数据挖掘方法。例如:多元统计:回归分析、因子分析、离散等,数据挖掘中的:决策树、聚类、关联规则、神经网络等。
但是还是应该关注一些博客、论坛中大家对于最新方法的介绍,或者是对老方法的新运用,不断更新自己知识,才能跟上时代,也许你工作中根本不会用到,但是未来呢?行业知识 如果数据不结合具体的行业、业务知识,数据就是一堆数字,不代表任何东西。是冷冰冰,是不会产生任何价值的,数据驱动营销、提高科学决策一切都是空的。
一名数据分析师,一定要对所在行业知识、业务知识有深入的了解。例如:看到某个数据,你首先必须要知道,这个数据的统计口径是什么?是如何取出来的?这个数据在这个行业, 在相应的业务是在哪个环节是产生的?数值的代表业务发生了什么(背景是什么)?对于A部门来说,本月新会员有10万,10万好还是不好呢?先问问上面的这个问题:对于A部门,1、新会员的统计口径是什么。
第一次在使用A部门的产品的会员?还是在站在公司角度上说,第一次在公司发展业务接触的会员?2、是如何统计出来的。A:时间;是通过创建时间,还是业务完成时间。
B:业务场景。是只要与业务发接触,例如下了单,还是要业务完成后,到成功支付。
3、这个数据是在哪个环节统计出来。在注册环节,在下单环节,在成功支付环节。
4、这个数据代表着什么。10万高吗?与历史相同比较?是否做了营销活动?这个行业处理行业生命同期哪个阶段?在前面二点,更多要求你能按业务逻辑,来进行数据的提取(更多是写SQL代码从数据库取出数据)。
后面二点,更重要是对业务了解,更行业知识了解,你才能进行相应的数据解读,才能让数据产生真正的价值,不是吗?对于新进入数据行业或者刚进入数据行业的朋友来说:行业知识都重要,也许你看到很多的数据行业的同仁,在微博或者写文章说,数据分析思想、行业知识、业务知识很重要。我非常同意。
因为作为数据分析师,在发表任何观点的时候,都不要忘记你居于的背景是什么?但大家一定不要忘记了一些基本的技术,不要把基础去忘记了,如果一名数据分析师不会写SQL,那麻烦就大了。哈哈。
你只有把数据先取对了,才能正确的分析,否则一切都是错误了,甚至会导致致命的结论。
新同学,还是好好花时间把基础技能学好。因为基础技能你可以在短期内快速提高,但是在行业、业务知识的是一点一滴的积累起来的,有时候是急不来的,这更需要花时间慢慢去沉淀下来。
不要过于追求很高级、高深的统计方法,我提倡有空还是要多去学习基本的统计学知识,从而提高工作效率,达到事半功倍。以我经验来说,我负责任告诉新进的同学,永远不要忘记基本知识、基本技能的学习。
二、要有三心。1、细心。
2、耐心。3、静心。
数据分析师其实是一个细活,特别是在前文提到的例子中的前面二点。而且在数据分析过程中,是一个不断循环迭代的过程,所以一定在耐心,不怕麻烦,能静下心来不断去修改自己的分析思路。
三、形成自己结构化的思维。数据分析师一定要严谨。
而严谨一定要很强的结构化思维,如何提高结构化思维,也许只需要工作队中不断的实践。但是我推荐你用mindmanagement,首先把你的整个思路整理出来,然后根据分析不断深入、得到的信息不断增加的情况下去完善你的结构,慢慢你会形成一套自己的思想。
当然有空的时候去看看《麦肯锡思维》、结构化逻辑思维训练的书也不错。在我以为多看看你身边更资深同事的报告,多问问他们是怎么去考虑这个问题的,别人的思想是怎么样的?他是怎么构建整个分析体系的。
四、业务、行业、商业知识。当你掌握好前面的基本知识和一些技巧性东西的时候,你应该在业务、行业、商业知识的学习与积累上了。
这个放在最后,不是不重要,而且非常重要,如果前面三点是决定你能否进入这个行业,那么这则是你进入这个行业后,能否成功的最根本的因素。 数据与具体行业知识的关系,比作池塘中鱼与水的关系一点都不过分,数据(鱼)离开了行业、业务背景(水)是死的,是不可能是“活”。
而没有“鱼”的水,更像是“死”水,你去根本不知道看什么(方向在哪)。如何提高业务知识,特别是没有相关背景的同学。
很简单,我总结了几点:1、多向业务部门的同事请教,多沟通。多向他们请教,数据分析师与业务部门没有利益冲突,而更向是共生体,所以如果你态度好,相信业务部门的同事也很愿意把他们知道的告诉你。
2、永远不要忘记了google大神,定制一些行业的关键字,每天都先看看定制的邮件。3、每天有空去浏。
借助工具,未至科技魔方是一款大数据模型平台,是一款基于服务总线与分布式云计算两大技术架构的一款数据分析、挖掘的工具平台,其采用分布式文件系统对数据进行存储,支持海量数据的处理。
采用多种的数据采集技术,支持结构化数据及非结构化数据的采集。通过图形化的模型搭建工具,支持流程化的模型配置。
通过第三方插件技术,很容易将其他工具及服务集成到平台中去。数据分析研判平台就是海量信息的采集,数据模型的搭建,数据的挖掘、分析最后形成知识服务于实战、服务于决策的过程,平台主要包括数据采集部分,模型配置部分,模型执行部分及成果展示部分等。
一、描述性统计
描述性统计是一类统计方法的汇总,揭示了数据分布特性。它主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布以及一些基本的统计图形。
1、缺失值填充:常用方法有剔除法、均值法、决策树法。
2、正态性检验:很多统计方法都要求数值服从或近似服从正态分布,所以在做数据分析之前需要进行正态性检验。常用方法:非参数检验的K-量检验、P-P图、Q-Q图、W检验、动差法。
二、回归分析
回归分析是应用极其广泛的数据分析方法之一。它基于观测数据建立变量间适当的依赖关系,以分析数据内在规律。
1. 一元线性分析
只有一个自变量X与因变量Y有关,X与Y都必须是连续型变量,因变量Y或其残差必须服从正态分布。
2. 多元线性回归分析
使用条件:分析多个自变量X与因变量Y的关系,X与Y都必须是连续型变量,因变量Y或其残差必须服从正态分布。
3.Logistic回归分析
线性回归模型要求因变量是连续的正态分布变量,且自变量和因变量呈线性关系,而Logistic回归模型对因变量的分布没有要求,一般用于因变量是离散时的情况。
4. 其他回归方法:非线性回归、有序回归、Probit回归、加权回归等。
三、方差分析
使用条件:各样本须是相互独立的随机样本;各样本来自正态分布总体;各总体方差相等。
1. 单因素方差分析:一项试验只有一个影响因素,或者存在多个影响因素时,只分析一个因素与响应变量的关系。
2. 多因素有交互方差分析:一顼实验有多个影响因素,分析多个影响因素与响应变量的关系,同时考虑多个影响因素之间的关系
3. 多因素无交互方差分析:分析多个影响因素与响应变量的关系,但是影响因素之间没有影响关系或忽略影响关系
4. 协方差分祈:传统的方差分析存在明显的弊端,无法控制分析中存在的某些随机因素,降低了分析结果的准确度。协方差分析主要是在排除了协变量的影响后再对修正后的主效应进行方差分析,是将线性回归与方差分析结合起来的一种分析方法。
四、假设检验
1. 参数检验
参数检验是在已知总体分布的条件下(一股要求总体服从正态分布)对一些主要的参数(如均值、百分数、方差、相关系数等)进行的检验 。
2. 非参数检验
非参数检验则不考虑总体分布是否已知,常常也不是针对总体参数,而是针对总体的某些一般性假设(如总体分布的位罝是否相同,总体分布是否正态)进行检验。
适用情况:顺序类型的数据资料,这类数据的分布形态一般是未知的。
1)虽然是连续数据,但总体分布形态未知或者非正态;
2)总体分布虽然正态,数据也是连续类型,但样本容量极小,如10以下;
主要方法包括:卡方检验、秩和检验、二项检验、游程检验、K-量检验等。
去百度文库,查看完整内容>
内容来自用户:蒋上树
常用数据分析方法有那些
文章来源:ECP数据分析时间:2013/6/28 13:35:06发布者:常用数据分析(关注:554)
标签:本文包括:
常用数据分析方法:聚类分析、因子分析、相关分析、对应分析、回归分析、方差分析;
问卷调查常用数据分析方法:描述性统计分析、探索性因素分析、Cronbach'a信度系数分析、结构方程模型分析(structural equations modeling)。
数据分析常用的图表方法:柏拉图(排列图)、直方图(Histogram)、散点图(scatter diagram)、鱼骨图(Ishikawa)、FMEA、点图、柱状图、雷达图、趋势图。
数据分析统计工具:SPSS、minitab、JMP。
常用数据分析方法:
1、聚类分析(Cluster Analysis)
聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。
2、因子分析(Factor Analysis)
因子分析是指研究从变量群中提取共性因子的统计技术。因子分析就是从大量的数据中寻找内在的联系,减少决策的困难。相关分析(直方图JMP
要进行一次完整的数据分析,首先要明确数据分析思路,如从那几个方面开展数据分析,各方面都包含什么内容或指标。
是分析框架,给出分析工作的宏观框架,根据框架中包含的内容,再运用具体的分析方法进行分析。 数据分析方法论的作用:理顺分析思路,确保数据分析结构体系化把问题分解成相关联的部分,并显示他们的关系为后续数据分析的开展指引方向确保分析结果的有效性和正确性五大数据分析模型1.PEST分析模型政治环境:包括一个国家的社会制度,执政党性质,政府的方针、政策、法令等。
不同的政治环境对行业发展有不同的影响。 关键指标政治体制,经济体制,财政政策,税收政策,产业政策,投资政策,专利数量,国防开支水平,政府补贴水平,民众对政治的参与度。
经济环境:宏观和微观两个方面。宏观:一个国家国民收入,国民生产总值以及变化情况,以通过这些指标反应国民经济发展水平和发展速度。
微观:企业所在地区的消费者收入水平、消费偏好、储蓄情况、就业程度等因素,这些因素决定着企业目前以及未来的市场大小。 关键指标GDP及增长率、进出口总额及增长率、利率、汇率、通货膨胀率、消费价格指数、居民可支配收入、失业率、劳动生产率等。
社会环境:包括一个国家或地区的居民受教育程度和文化水平、宗教信仰、风俗习惯、审美观点、价值观等。文化水平营销居民的需求层次,宗教信仰和风俗习惯会禁止或抵制某些活动的进行,价值观会影响居民对组织目标和组织活动存在本身的认可,审美观点则会影响人们对组织活动内容、活动方式以及活动成果的态度。
关键指标人口规模、性别比例、年龄结构、出生率、死亡率、种族结构、妇女生育率、生活方式、购买习惯、教育状况、城市特点、宗教信仰状况等因素。技术环境:企业所处领域直接相关的技术手段发展变化,国家队科技开发的投资和支持重点,该领域技术发展动态和研究开发费用总额,技术转移和技术商品化速度,专利及其保护情况。
关键指标新技术的发明和进展、折旧和报废速度、技术更新速度、技术传播速度、技术商品化速度、国家重点支持项目、国家投入的研发费用、专利个数、专利保护情况。2.5W2H模型5W2H分析法主要针对5个W以及2个H提出的7个关键词进行数据指标的选取,根据选取的数据进行分析3.逻辑树分析模型将问题的所有子问题分层罗列,从最高层开始,并逐步向下扩展。
把一个已知问题当作树干,考虑这个问题和哪些问题有关,将相关的问题作为树枝加入到树干,一次类推,就会将问题扩展成一个问题树。逻辑树能保证解决问题的过程完整性,将工作细化成便于操作的具体任务,确定各部分优先顺序,明确责任到个人。
逻辑树分析法三原则:要素化:把相同问题总结归纳成要素框架化:将各个要素组成框架,遵守不重不漏原则关联化:框架内的各要素保持必要的相互关系,简单而不孤立4.4P营销理论模型产品:能提供给市场,被人们使用和消费并满足人们某种需求的任何东西,包括有形产品、服务、人员、组织、观念和它们的组合。价格:购买产品时的价格,包括基本价格、折扣价格、支付期限等。
影响价格的主要因素有需求、成本和竞争。渠道:产品从生产企业流转到用户手上全过程所经历的各个环节。
促销:企业通过销售行为的改变来激励用户消费,以短期的行为促进消费的增长,吸引其他品牌用户或导致提钱消费来促进销售增长。5.用户行为模型用户行为指用户为获取、使用产品或服务才去的各种行动,首先要认知熟悉,然后试用,再决定是否继续消费使用,最后成为产品或服务的忠实用户。
行为轨迹:认知->熟悉->试用->使用->忠诚最后五大数据分析模型的应用场景根据数据分析所选取的指标不同也有所区别。PEST分析模型主要针对宏观市场环境进行分析,从政治、经济、社会以及技术四个维度对产品或服务是否适合进入市场进行数据化的分析,最终得到结论,辅助判断产品或服务是否满足大环境。
5W2H分析模型的应用场景较广,可用于对用户行为进行分析以及产品业务分析。逻辑树分析模型主要针对已知问题进行分析,通过对已知问题的细化分析,通过分析结论找到问题的最优解决方案。
4P营销理论模型主要用于公司或其中某一个产品线的整体运营情况分析,通过分析结论,辅助决策近期运营计划与方案。用户行为分析模型应用场景比较单一,完全针对用户的行为进行研究分析。
当然,模型只是前人总结出的方式方法,对于我们实际工作中解决问题有引导作用,但是不可否认,具体问题还要具体分析,针对不同的情况需要进行不同的改进。
总的分两种:
1 列表法
将实验数据按一定规律用列表方式表达出来是记录和处理实验数据最常用的方法。表格的设计要求对应关系清楚、简单明了、有利于发现相关量之间的物理关系;此外还要求在标题栏中注明物理量名称、符号、数量级和单位等;根据需要还可以列出除原始数据以外的计算栏目和统计栏目等。最后还要求写明表格名称、主要测量仪器的型号、量程和准确度等级、有关环境条件参数如温度、湿度等。
2 作图法
作图法可以最醒目地表达物理量间的变化关系。从图线上还可以简便求出实验需要的某些结果(如直线的斜率和截距值等),读出没有进行观测的对应点(内插法),或在一定条件下从图线的延伸部分读到测量范围以外的对应点(外推法)。此外,还可以把某些复杂的函数关系,通过一定的变换用直线图表示出来。例如半导体热敏电阻的电阻与温度关系为,取对数后得到,若用半对数坐标纸,以lgR为纵轴,以1/T为横轴画图,则为一条直线。
2常用的建模方法(I)初等数学法。
主要用于一些静态、线性、确定性的模型。例如,席位分配问题,学生成绩的比较,一些简单的传染病静态模型。
(2)数据分析法。从大量的观测数据中,利用统计方法建立数学模型,常见的有:回归分析法,时序分析法。
(3)仿真和其他方法。主要有计算机模拟(是一种统计估计方法,等效于抽样试验,可以离散系统模拟和连续系统模拟),因子试验法(主要是在系统上做局部试验,根据试验结果进行不断分析修改,求得所需模型结构),人工现实法(基于对系统的了解和所要达到的目标,人为地组成一个系统)。
(4)层次分析法。主要用于有关经济计划和管理、能源决策和分配、行为科学、军事科学、军事指挥、运输、农业、教育、人才、医疗、环境等领域,以便进行决策、评价、分析、预测等。
该方法关键的一步是建立层次结构模型。
声明:本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
蜀ICP备2020033479号-4 Copyright © 2016 学习鸟. 页面生成时间:2.577秒