詳解數(shù)據(jù)倉庫建設(shè)體系
3. 數(shù)據(jù)倉庫元數(shù)據(jù)的管理
元數(shù)據(jù)(Meta Date),主要記錄數(shù)據(jù)倉庫中模型的定義、各層級間的映射關(guān)系、監(jiān)控數(shù)據(jù)倉庫的數(shù)據(jù)狀態(tài)及ETL的任務(wù)運行狀態(tài)。一般會通過元數(shù)據(jù)資料庫(Metadata Repository)來統(tǒng)一地存儲和管理元數(shù)據(jù),其主要目的是使數(shù)據(jù)倉庫的設(shè)計、部署、操作和管理能達成協(xié)同和一致。
元數(shù)據(jù)是數(shù)據(jù)倉庫管理系統(tǒng)的重要組成部分,元數(shù)據(jù)管理是企業(yè)級數(shù)據(jù)倉庫中的關(guān)鍵組件,貫穿數(shù)據(jù)倉庫構(gòu)建的整個過程,直接影響著數(shù)據(jù)倉庫的構(gòu)建、使用和維護。
構(gòu)建數(shù)據(jù)倉庫的主要步驟之一是ETL。這時元數(shù)據(jù)將發(fā)揮重要的作用,它定義了源數(shù)據(jù)系統(tǒng)到數(shù)據(jù)倉庫的映射、數(shù)據(jù)轉(zhuǎn)換的規(guī)則、數(shù)據(jù)倉庫的邏輯結(jié)構(gòu)、數(shù)據(jù)更新的規(guī)則、數(shù)據(jù)導(dǎo)入歷史記錄以及裝載周期等相關(guān)內(nèi)容。數(shù)據(jù)抽取和轉(zhuǎn)換的專家以及數(shù)據(jù)倉庫管理員正是通過元數(shù)據(jù)高效地構(gòu)建數(shù)據(jù)倉庫。用戶在使用數(shù)據(jù)倉庫時,通過元數(shù)據(jù)訪問數(shù)據(jù),明確數(shù)據(jù)項的含義以及定制報表。數(shù)據(jù)倉庫的規(guī)模及其復(fù)雜性離不開正確的元數(shù)據(jù)管理,包括增加或移除外部數(shù)據(jù)源,改變數(shù)據(jù)清洗方法,控制出錯的查詢以及安排備份等。
元數(shù)據(jù)可分為技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù)。技術(shù)元數(shù)據(jù)為開發(fā)和管理數(shù)據(jù)倉庫的IT 人員使用,它描述了與數(shù)據(jù)倉庫開發(fā)、管理和維護相關(guān)的數(shù)據(jù),包括數(shù)據(jù)源信息、數(shù)據(jù)轉(zhuǎn)換描述、數(shù)據(jù)倉庫模型、數(shù)據(jù)清洗與更新規(guī)則、數(shù)據(jù)映射和訪問權(quán)限等。而業(yè)務(wù)元數(shù)據(jù)為管理層和業(yè)務(wù)分析人員服務(wù),從業(yè)務(wù)角度描述數(shù)據(jù),包括商務(wù)術(shù)語、數(shù)據(jù)倉庫中有什么數(shù)據(jù)、數(shù)據(jù)的位置和數(shù)據(jù)的可用性等,幫助業(yè)務(wù)人員更好地理解數(shù)據(jù)倉庫中哪些數(shù)據(jù)是可用的以及如何使用。
由上可見,元數(shù)據(jù)不僅定義了數(shù)據(jù)倉庫中數(shù)據(jù)的模式、來源、抽取和轉(zhuǎn)換規(guī)則等,而且是整個數(shù)據(jù)倉庫系統(tǒng)運行的基礎(chǔ),元數(shù)據(jù)把數(shù)據(jù)倉庫系統(tǒng)中各個松散的組件聯(lián)系起來,組成了一個有機的整體。
數(shù)倉建模方法
數(shù)據(jù)倉庫的建模方法有很多種,每一種建模方法代表了哲學(xué)上的一個觀點,代表了一種歸納、概括世界的一種方法。常見的有 范式建模法、維度建模法、實體建模法等,每種方法從本質(zhì)上將是從不同的角度看待業(yè)務(wù)中的問題。
1. 范式建模法(Third Normal Form,3NF)
范式建模法其實是我們在構(gòu)建數(shù)據(jù)模型常用的一個方法,該方法的主要由 Inmon 所提倡,主要解決關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)存儲,利用的一種技術(shù)層面上的方法。目前,我們在關(guān)系型數(shù)據(jù)庫中的建模方法,大部分采用的是三范式建模法。
范式 是符合某一種級別的關(guān)系模式的集合。構(gòu)造數(shù)據(jù)庫必須遵循一定的規(guī)則,而在關(guān)系型數(shù)據(jù)庫中這種規(guī)則就是范式,這一過程也被稱為規(guī)范化。目前關(guān)系數(shù)據(jù)庫有六種范式:第一范式(1NF)、第二范式(2NF)、第三范式(3NF)、Boyce-Codd范式(BCNF)、第四范式(4NF)和第五范式(5NF)。
在數(shù)據(jù)倉庫的模型設(shè)計中,一般采用第三范式。一個符合第三范式的關(guān)系必須具有以下三個條件 :
每個屬性值唯一,不具有多義性 ;
每個非主屬性必須完全依賴于整個主鍵,而非主鍵的一部分 ;
每個非主屬性不能依賴于其他關(guān)系中的屬性,因為這樣的話,這種屬性應(yīng)該歸到其他關(guān)系中去。
范式建模
根據(jù) Inmon 的觀點,數(shù)據(jù)倉庫模型的建設(shè)方法和業(yè)務(wù)系統(tǒng)的企業(yè)數(shù)據(jù)模型類似。在業(yè)務(wù)系統(tǒng)中,企業(yè)數(shù)據(jù)模型決定了數(shù)據(jù)的來源,而企業(yè)數(shù)據(jù)模型也分為兩個層次,即主題域模型和邏輯模型。同樣,主題域模型可以看成是業(yè)務(wù)模型的概念模型,而邏輯模型則是域模型在關(guān)系型數(shù)據(jù)庫上的實例化。
2. 維度建模法(Dimensional Modeling)
維度模型是數(shù)據(jù)倉庫領(lǐng)域另一位大師Ralph Kimall所倡導(dǎo),他的《數(shù)據(jù)倉庫工具箱》是數(shù)據(jù)倉庫工程領(lǐng)域最流行的數(shù)倉建模經(jīng)典。維度建模以分析決策的需求出發(fā)構(gòu)建模型,構(gòu)建的數(shù)據(jù)模型為分析需求服務(wù),因此它重點解決用戶如何更快速完成分析需求,同時還有較好的大規(guī)模復(fù)雜查詢的響應(yīng)性能。
維度建模
典型的代表是我們比較熟知的星形模型(Star-schema),以及在一些特殊場景下適用的雪花模型(Snow-schema)。
維度建模中比較重要的概念就是 事實表(Fact table)和維度表(Dimension table)。其最簡單的描述就是,按照事實表、維度表來構(gòu)建數(shù)據(jù)倉庫、數(shù)據(jù)集市。
目前在互聯(lián)網(wǎng)公司最常用的建模方法就是維度建模,稍后將重點講解。
3. 實體建模法(Entity Modeling)
實體建模法并不是數(shù)據(jù)倉庫建模中常見的一個方法,它來源于哲學(xué)的一個流派。從哲學(xué)的意義上說,客觀世界應(yīng)該是可以細分的,客觀世界應(yīng)該可以分成由一個個實體,以及實體與實體之間的關(guān)系組成。那么我們在數(shù)據(jù)倉庫的建模過程中完全可以引入這個抽象的方法,將整個業(yè)務(wù)也可以劃分成一個個的實體,而每個實體之間的關(guān)系,以及針對這些關(guān)系的說明就是我們數(shù)據(jù)建模需要做的工作。
雖然實體法粗看起來好像有一些抽象,其實理解起來很容易。即我們可以將任何一個業(yè)務(wù)過程劃分成 3 個部分,實體,事件,說明,如下圖所示:
實體建模
上圖表述的是一個抽象的含義,如果我們描述一個簡單的事實:“小明開車去學(xué)校上學(xué)”。以這個業(yè)務(wù)事實為例,我們可以把“小明”,“學(xué)!笨闯墒且粋實體,“上學(xué)”描述的是一個業(yè)務(wù)過程,我們在這里可以抽象為一個具體“事件”,而“開車去”則可以看成是事件“上學(xué)”的一個說明。
維度建模
維度建模是目前應(yīng)用較為廣泛的,專門應(yīng)用于分析型數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)集市建模的方法。數(shù)據(jù)集市可以理解為是一種"小型數(shù)據(jù)倉庫"。
1. 維度建模中表的類型
1. 事實表
發(fā)生在現(xiàn)實世界中的操作型事件,其所產(chǎn)生的可度量數(shù)值,存儲在事實表中。從最低的粒度級別來看,事實表行對應(yīng)一個度量事件,反之亦然。
事實表表示對分析主題的度量。比如一次購買行為我們就可以理解為是一個事實。
事實與維度
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
11月20日火熱報名中>> 2024 智能家居出海論壇
-
11月28日立即報名>>> 2024工程師系列—工業(yè)電子技術(shù)在線會議
-
12月19日立即報名>> 【線下會議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會
-
即日-12.26火熱報名中>> OFweek2024中國智造CIO在線峰會
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍皮書》
-
精彩回顧立即查看>> 【在線會議】多物理場仿真助跑新能源汽車
推薦專題
- 1 腦機接口芯片,華為出了新專利!
- 2 今年諾獎對人工智能的重視,給我們的基礎(chǔ)教育提了個醒
- 3 銀行業(yè)AI大模型,從入局到求變
- 4 巨頭搶布局,VC狂撒錢,為了能讓「AI讀心」這些公司卷瘋了
- 5 阿斯麥ASML:“骨折級”洋相,又成AI第一殺手?
- 6 蘋果市值創(chuàng)新高,iPhone 16能否助力突破4萬億美元大關(guān)?
- 7 一場“載入史冊”的發(fā)布會,讓馬斯克失去了4700億
- 8 百度谷歌比較研究2024:中美“遠古AI龍頭”的現(xiàn)狀與趨勢
- 9 洞見AI風(fēng)潮 第二屆vivo藍河操作系統(tǒng)創(chuàng)新賽開啟招募
- 10 地平線開啟配售,阿里百度各砸5000萬美金,市值最高超500億
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市