Posted by: Tony.DING | 2011年10月17日

Microsoft BI Tutorial Notes (2)

第二篇 Basic 103 The Data warehousing Process

这一讲主要是关于数据仓库建模过程,这也是上学期NF26课程的主要内容,由于这是整个商业智能中最基础也是最重要的技术,这个讲座权且当做是复习好了。

Datawarehouse vs DataMart

这两个概念经常被提及,其实两者并没有本质的区别,主要就是规模上的差异。我们可以把DM看作是某个角度或者针对企业某个部门的DW,比如人事部,销售,客服部都可以分别建立各自的DM,仅仅面向一个流程。DW可以认为是DM的集合。但是两者的流程是相同的。

Datawarehouse 流程

上面的这张图展示了整个DW 流程,下面具体分析这流程的步骤。

在建立DW之前,我们必须了解我们创建这个DW的目的。确定这个目的就是确定问题(Identify the problem),只有精确的定位了问题我们才能开展后面的工作,否则一切都可能是徒劳。确定问题的同时,也确定了这个DW的指标,需要聚焦的数据 (the metrics).

第二步,我们称为维度建模(Dimension modeling). 比如,经典的星形模型,雪花模型等,确立dimension的关系。

第三步,收集确定数据源(Identify the data source). 在这里我们要找到我们需要的数据,它们可能会有不同的来源,内部或外部,数据库或者文件。这些都不要紧 只要我们能收集到需要的数据,就能导入。

第四步,ETL过程,这一步是非常重要,也在整个流程中占据很大比重(60% – 80% !!!)。 所谓 ETL=Extraction Transformation Loading。Extraction 指导入数据的过程,我们要把第三步中不同来源 不同类型的数据导入到我们的数据仓库中。Transformation 指数据的转化,或者可以理解成”清洗”数据。 原始数据都是”脏”的,比如格式的不统一,数据的不完整等。 Transformation可以算一种normalisation。在MS的BI解决方案中,ETL 由 SSIS (Intergration service) 实现。

第五步,建立Cube,cube在数据仓库中是一项很神奇的技术。Cube 最大的优点也是我们建立的原因是速度。Cube 预先计算好聚合数据,并把它们存储起来。当我们请求访问时,就快多了。Cube 一般都有明确的继承关系,他让我们方便地挖掘数据。

最后一步,输出数据(Deliver data).  输出的形式有很多,比如Excel,报表,甚至可以是web application。

Advertisement

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Connecting to %s

Categories

Follow

Get every new post delivered to your Inbox.