尽管端午前的连续加班加得死去活来,尽管曼联输了冠军杯还搭上了100元,但是这个端午还是过得有点特别。嘿嘿!
Archive for » 05月, 2009 «
说实话,虽然干数据分析快一年了,可是却是一直埋头苦干,没有好好地了解BI这个行业体系。比如说什么是OLAP,我就仅仅知道它叫联机分析处理(OnLine Analytical Processing),当然有时也会简略地叫联机分析。可是这个联机分析有什么特别呢,不还是select来select去吗?顶多就是加几个group by嘛,没什么了不起的。
嗯,我知道我又犯错误了。大学读的媒介论又忘了,被媒介所逐步改变却不自知,实在是羞耻。说白了就是只知低头傻干,却没有半点理论长进。
OLAP的概念最早是由关系数据库之父E.F.Codd于1993年提出的,他将OLAP定义为是一套以多维度方式分析信息的方法。OLAP将数据分为两种:一种为度量数据,比如一个销售分析模型中的销售额、毛利等;还有一种为维度数据,比如销售分析中的时间周期、产品类型、销售模式、销售区域等。前者是被观察的对象,后者为观察视角。套用SQL的术语,那么度量数据就是用来count、sum的,而维度数据就是用来group by的。通过建立这样既含有维度数据又有度量数据的模型,我们就能够根据业务需求,从各个维度去观察数据、了解数据。
OLAP中还有一个概念叫钻取。不错,以SQL的观点就是增加group by的字段。可是在理论上来看,钻取一词可真是十分地贴切。它让我们在现有数据基础上,将数据进一步细化,以获得更为精确细致的认识。
由于OLAP涉及的数据量十分巨大,一般都是百万级以上。所以一般都需要进行预处理。这便是CUBE计算。它预先将一些度量数据及维度数据进行组合(形成一个立方体),并进行汇总计算,那么在使用时即可随时调出从而节省时间。
以上便是OLAP概念。很多时间,不了解理论对我们的工作似乎影响不大,可是却让我们的双眼受到蒙蔽而不能看到全局的风景。知其然更要知其所以然,不然就要被媒介牵着鼻子走了。
–EOF–


