訂閱
糾錯
加入自媒體

一文了解數(shù)倉建設(shè)及數(shù)據(jù)治理

2021-07-21 10:21
園陌
關(guān)注

實(shí)際業(yè)務(wù)中數(shù)倉分層

數(shù)倉分層要結(jié)合公司業(yè)務(wù)進(jìn)行,并且需要清晰明確各層職責(zé),要保證數(shù)據(jù)層的穩(wěn)定又要屏蔽對下游影響,一般采用如下分層結(jié)構(gòu):

數(shù)據(jù)分層架構(gòu)數(shù)據(jù)層具體實(shí)現(xiàn)

使用四張圖說明每層的具體實(shí)現(xiàn)

數(shù)據(jù)源層ODS

數(shù)據(jù)源層

數(shù)據(jù)源層主要將各個業(yè)務(wù)數(shù)據(jù)導(dǎo)入到大數(shù)據(jù)平臺,作為業(yè)務(wù)數(shù)據(jù)的快照存儲。

數(shù)據(jù)明細(xì)層DW

數(shù)據(jù)明細(xì)層

事實(shí)表中的每行對應(yīng)一個度量,每行中的數(shù)據(jù)是一個特定級別的細(xì)節(jié)數(shù)據(jù),稱為粒度。維度建模的核心原則之一是同一事實(shí)表中的所有度量必須具有相同的粒度。這樣能確保不會出現(xiàn)重復(fù)計算度量的問題。

維度表一般都是單一主鍵,少數(shù)是聯(lián)合主鍵,注意維度表不要出現(xiàn)重復(fù)數(shù)據(jù),否則和事實(shí)表關(guān)聯(lián)會出現(xiàn)數(shù)據(jù)發(fā)散問題。

有時候往往不能確定該列數(shù)據(jù)是事實(shí)屬性還是維度屬性。記住最實(shí)用的事實(shí)就是數(shù)值類型和可加類事實(shí)。所以可以通過分析該列是否是一種包含多個值并作為計算的參與者的度量,這種情況下該列往往是事實(shí);如果該列是對具體值的描述,是一個文本或常量,某一約束和行標(biāo)識的參與者,此時該屬性往往是維度屬性。但是還是要結(jié)合業(yè)務(wù)進(jìn)行最終判斷是維度還是事實(shí)。

數(shù)據(jù)輕度匯總層DM

數(shù)據(jù)輕度匯總層

此層命名為輕匯總層,就代表這一層已經(jīng)開始對數(shù)據(jù)進(jìn)行匯總,但是不是完全匯總,只是對相同粒度的數(shù)據(jù)進(jìn)行關(guān)聯(lián)匯總,不同粒度但是有關(guān)系的數(shù)據(jù)也可進(jìn)行匯總,此時需要將粒度通過聚合等操作進(jìn)行統(tǒng)一。

數(shù)據(jù)應(yīng)用層APP

數(shù)據(jù)應(yīng)用層

數(shù)據(jù)應(yīng)用層的表就是提供給用戶使用的,數(shù)倉建設(shè)到此就接近尾聲了,接下來就根據(jù)不同的需求進(jìn)行不同的取數(shù),如直接進(jìn)行報表展示,或提供給數(shù)據(jù)分析的同事所需的數(shù)據(jù),或其他的業(yè)務(wù)支撐。

一張圖總結(jié)下數(shù)據(jù)倉庫的構(gòu)建整體流程:

數(shù)倉整體流程數(shù)據(jù)治理

數(shù)倉建設(shè)真正的難點(diǎn)不在于數(shù)倉設(shè)計,而在于后續(xù)業(yè)務(wù)發(fā)展起來,業(yè)務(wù)線變的龐大之后的數(shù)據(jù)治理,包括資產(chǎn)治理、數(shù)據(jù)質(zhì)量監(jiān)控、數(shù)據(jù)指標(biāo)體系的建設(shè)等。

其實(shí)數(shù)據(jù)治理的范圍很?,包含數(shù)據(jù)本?的管理、數(shù)據(jù)安全、數(shù)據(jù)質(zhì)量、數(shù)據(jù)成本等。在DAMA 數(shù)據(jù)管理知識體系指南中,數(shù)據(jù)治理位于數(shù)據(jù)管理“車輪圖”的正中央,是數(shù)據(jù)架構(gòu)、數(shù)據(jù)建模、數(shù)據(jù)存儲、數(shù)據(jù)安全、數(shù)據(jù)質(zhì)量、元數(shù)據(jù)管理、主數(shù)據(jù)管理等10大數(shù)據(jù)管理領(lǐng)域的總綱,為各項(xiàng)數(shù)據(jù)管理活動提供總體指導(dǎo)策略。

數(shù)據(jù)治理之道是什么1. 數(shù)據(jù)治理需要體系建設(shè)

為發(fā)揮數(shù)據(jù)價值需要滿足三個要素:合理的平臺架構(gòu)、完善的治理服務(wù)、體系化的運(yùn)營手段。

根據(jù)企業(yè)的規(guī)模、所屬行業(yè)、數(shù)據(jù)量等情況選擇合適的平臺架構(gòu);治理服務(wù)需要貫穿數(shù)據(jù)全生命周期,保證數(shù)據(jù)在采集、加工、共享、存儲、應(yīng)用整個過程中的完整性、準(zhǔn)確性、一致性和實(shí)效性;運(yùn)營手段則應(yīng)當(dāng)包括規(guī)范的優(yōu)化、組織的優(yōu)化、平臺的優(yōu)化以及流程的優(yōu)化等等方面。

2. 數(shù)據(jù)治理需要夯實(shí)基礎(chǔ)

數(shù)據(jù)治理需要循序漸進(jìn),但在建設(shè)初期至少需要關(guān)注三個方面:數(shù)據(jù)規(guī)范、數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全。規(guī)范化的模型管理是保障數(shù)據(jù)可以被治理的前提條件,高質(zhì)量的數(shù)據(jù)是數(shù)據(jù)可用的前提條件,數(shù)據(jù)的安全管控是數(shù)據(jù)可以共享交換的前提條件。

3. 數(shù)據(jù)治理需要IT賦能

數(shù)據(jù)治理不是一堆規(guī)范文檔的堆砌,而是需要將治理過程中所產(chǎn)生的的規(guī)范、流程、標(biāo)準(zhǔn)落地到IT平臺上,在數(shù)據(jù)生產(chǎn)過程中通過“以終為始”前向的方式進(jìn)行數(shù)據(jù)治理,避免事后稽核帶來各種被動和運(yùn)維成本的增加。

4. 數(shù)據(jù)治理需要聚焦數(shù)據(jù)

數(shù)據(jù)治理的本質(zhì)是管理數(shù)據(jù),因此需要加強(qiáng)元數(shù)據(jù)管理和主數(shù)據(jù)管理,從源頭治理數(shù)據(jù),補(bǔ)齊數(shù)據(jù)的相關(guān)屬性和信息,比如:元數(shù)據(jù)、質(zhì)量、安全、業(yè)務(wù)邏輯、血緣等,通過元數(shù)據(jù)驅(qū)動的方式管理數(shù)據(jù)生產(chǎn)、加工和使用。

5. 數(shù)據(jù)治理需要建管一體化

數(shù)據(jù)模型血緣與任務(wù)調(diào)度的一致性是建管一體化的關(guān)鍵,有助于解決數(shù)據(jù)管理與數(shù)據(jù)生產(chǎn)口徑不一致的問題,避免出現(xiàn)兩張皮的低效管理模式。

淺談數(shù)據(jù)治理方式

如上面所說,數(shù)據(jù)治理的范圍非常廣,其中最重要的是數(shù)據(jù)質(zhì)量治理,而數(shù)據(jù)質(zhì)量涉及的范圍也很廣,貫穿數(shù)倉的整個生命周期,從數(shù)據(jù)產(chǎn)生->數(shù)據(jù)接入->數(shù)據(jù)存儲->數(shù)據(jù)處理->數(shù)據(jù)輸出->數(shù)據(jù)展示,每個階段都需要質(zhì)量治理,評價維度包括完整性、規(guī)范性、一致性、準(zhǔn)確性、唯一性、關(guān)聯(lián)性等。

在系統(tǒng)建設(shè)的各個階段都應(yīng)該根據(jù)標(biāo)準(zhǔn)進(jìn)行數(shù)據(jù)質(zhì)量檢測和規(guī)范,及時進(jìn)行治理,避免事后的清洗工作。

質(zhì)量檢測可參考以下維度:

維度衡量標(biāo)準(zhǔn)完整性業(yè)務(wù)指定必須的數(shù)據(jù)是否缺失,不允許為空字符或者空值等。例如,數(shù)據(jù)源是否完整、維度取值是否完整、數(shù)據(jù)取值是否完整等時效性當(dāng)需要使用時,數(shù)據(jù)能否反映當(dāng)前事實(shí)。即數(shù)據(jù)必須及時,能夠滿足系統(tǒng)對數(shù)據(jù)時間的要求。例如處理(獲取、整理、清洗、加載等)的及時性唯一性在指定的數(shù)據(jù)集中數(shù)據(jù)值是否唯一參照完整性數(shù)據(jù)項(xiàng)是否在父表中有定義依賴一致性數(shù)據(jù)項(xiàng)取值是否滿足與其他數(shù)據(jù)項(xiàng)之間的依賴關(guān)系正確性數(shù)據(jù)內(nèi)容和定義是否一致精確性數(shù)據(jù)精度是否達(dá)到業(yè)務(wù)規(guī)則要求的位數(shù)技術(shù)有效性數(shù)據(jù)項(xiàng)是否按已定義的格式標(biāo)準(zhǔn)組織業(yè)務(wù)有效性數(shù)據(jù)項(xiàng)是否符合已定義的可信度根據(jù)客戶調(diào)查或客戶主動提供獲得可用性數(shù)據(jù)可用的時間和數(shù)據(jù)需要被訪問時間的比例可訪問性數(shù)據(jù)是否便于自動化讀取

下面是根據(jù)美團(tuán)的技術(shù)文章總結(jié)的幾點(diǎn)具體治理方式:

1. 規(guī)范治理

規(guī)范是數(shù)倉建設(shè)的保障。為了避免出現(xiàn)指標(biāo)重復(fù)建設(shè)和數(shù)據(jù)質(zhì)量差的情況,統(tǒng)一按照最詳細(xì)、可落地的方法進(jìn)行規(guī)范建設(shè)。

(1) 詞根

詞根是維度和指標(biāo)管理的基礎(chǔ),劃分為普通詞根與專有詞根,提高詞根的易用性和關(guān)聯(lián)性。

普通詞根:描述事物的最小單元體,如:交易-trade。

專有詞根:具備約定成俗或行業(yè)專屬的描述體,如:美元-USD。

(2) 表命名規(guī)范

通用規(guī)范

表名、字段名采用一個下劃線分隔詞根(示例:clienttype->client_type)。

每部分使用小寫英文單詞,屬于通用字段的必須滿足通用字段信息的定義。

表名、字段名需以字母為開頭。

表名、字段名最長不超過64個英文字符。

優(yōu)先使用詞根中已有關(guān)鍵字(數(shù)倉標(biāo)準(zhǔn)配置中的詞根管理),定期Review新增命名的不合理性。

在表名自定義部分禁止采用非標(biāo)準(zhǔn)的縮寫。

表命名規(guī)則

表名稱 = 類型 + 業(yè)務(wù)主題 + 子主題 + 表含義 + 存儲格式 + 更新頻率 +結(jié)尾,如下圖所示:

統(tǒng)一的表命名規(guī)范

(3) 指標(biāo)命名規(guī)范

結(jié)合指標(biāo)的特性以及詞根管理規(guī)范,將指標(biāo)進(jìn)行結(jié)構(gòu)化處理。

基礎(chǔ)指標(biāo)詞根,即所有指標(biāo)必須包含以下基礎(chǔ)詞根:

業(yè)務(wù)修飾詞,用于描述業(yè)務(wù)場景的詞匯,例如trade-交易。

3.日期修飾詞,用于修飾業(yè)務(wù)發(fā)生的時間區(qū)間。

4.聚合修飾詞,對結(jié)果進(jìn)行聚集操作。

5.基礎(chǔ)指標(biāo),單一的業(yè)務(wù)修飾詞+基礎(chǔ)指標(biāo)詞根構(gòu)建基礎(chǔ)指標(biāo) ,例如:交易金額-trade_amt。

6.派生指標(biāo),多修飾詞+基礎(chǔ)指標(biāo)詞根構(gòu)建派生指標(biāo)。派生指標(biāo)繼承基礎(chǔ)指標(biāo)的特性,例如:安裝門店數(shù)量-install_poi_cnt。

7.普通指標(biāo)命名規(guī)范,與字段命名規(guī)范一致,由詞匯轉(zhuǎn)換即可以。

2. 架構(gòu)治理

(1) 數(shù)據(jù)分層

優(yōu)秀可靠的數(shù)倉體系,往往需要清晰的數(shù)據(jù)分層結(jié)構(gòu),即要保證數(shù)據(jù)層的穩(wěn)定又要屏蔽對下游的影響,并且要避免鏈路過長,一般的分層架構(gòu)如下:

(2) 數(shù)據(jù)流向

穩(wěn)定業(yè)務(wù)按照標(biāo)準(zhǔn)的數(shù)據(jù)流向進(jìn)行開發(fā),即ODS-->DWD-->DWA-->APP。非穩(wěn)定業(yè)務(wù)或探索性需求,可以遵循ODS->DWD->APP或者ODS->DWD->DWT->APP兩個模型數(shù)據(jù)流。在保障了數(shù)據(jù)鏈路的合理性之后,又在此基礎(chǔ)上確認(rèn)了模型分層引用原則:

正常流向:ODS>DWD->DWT->DWA->APP,當(dāng)出現(xiàn)ODS >DWD->DWA->APP這種關(guān)系時,說明主題域未覆蓋全。應(yīng)將DWD數(shù)據(jù)落到DWT中,對于使用頻度非常低的表允許DWD->DWA。

盡量避免出現(xiàn)DWA寬表中使用DWD又使用(該DWD所歸屬主題域)DWT的表。

同一主題域內(nèi)對于DWT生成DWT的表,原則上要盡量避免,否則會影響ETL的效率。

DWT、DWA和APP中禁止直接使用ODS的表, ODS的表只能被DWD引用。

禁止出現(xiàn)反向依賴,例如DWT的表依賴DWA的表。

3. 元數(shù)據(jù)治理

元數(shù)據(jù)可分為技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù):

技術(shù)元數(shù)據(jù)為開發(fā)和管理數(shù)據(jù)倉庫的IT 人員使用,它描述了與數(shù)據(jù)倉庫開發(fā)、管理和維護(hù)相關(guān)的數(shù)據(jù),包括數(shù)據(jù)源信息、數(shù)據(jù)轉(zhuǎn)換描述、數(shù)據(jù)倉庫模型、數(shù)據(jù)清洗與更新規(guī)則、數(shù)據(jù)映射和訪問權(quán)限等。

常見的技術(shù)元數(shù)據(jù)有:

存儲元數(shù)據(jù):如表、字段、分區(qū)等信息。

運(yùn)行元數(shù)據(jù):如大數(shù)據(jù)平臺上所有作業(yè)運(yùn)行等信息:類似于 Hive Job 日志,包括作業(yè)類型、實(shí)例名稱、輸入輸出、 SQL 、運(yùn)行參數(shù)、執(zhí)行時間,執(zhí)行引擎等。

數(shù)據(jù)開發(fā)平臺中數(shù)據(jù)同步、計算任務(wù)、任務(wù)調(diào)度等信息:包括數(shù)據(jù)同步的輸入輸出表和字段,以及同步任務(wù)本身的節(jié)點(diǎn)信息:計算任務(wù)主要有輸入輸出、任務(wù)本身的節(jié)點(diǎn)信息 任務(wù)調(diào)度主要有任務(wù)的依賴類型、依賴關(guān)系等,以及不同類型調(diào)度任務(wù)的運(yùn)行日志等。

數(shù)據(jù)質(zhì)量和運(yùn)維相關(guān)元數(shù)據(jù):如任務(wù)監(jiān)控、運(yùn)維報警、數(shù)據(jù)質(zhì)量、故障等信息,包括任務(wù)監(jiān)控運(yùn)行日志、告警配置及運(yùn)行日志、故障信息等。

業(yè)務(wù)元數(shù)據(jù)為管理層和業(yè)務(wù)分析人員服務(wù),從業(yè)務(wù)角度描述數(shù)據(jù),包括商務(wù)術(shù)語、數(shù)據(jù)倉庫中有什么數(shù)據(jù)、數(shù)據(jù)的位置和數(shù)據(jù)的可用性等,幫助業(yè)務(wù)人員更好地理解數(shù)據(jù)倉庫中哪些數(shù)據(jù)是可用的以及如何使用。

常見的業(yè)務(wù)元數(shù)據(jù)有維度及屬性(包括維度編碼,字段類型,創(chuàng)建人,創(chuàng)建時間,狀態(tài)等)、業(yè)務(wù)過程、指標(biāo)(包含指標(biāo)名稱,指標(biāo)編碼,業(yè)務(wù)口徑,指標(biāo)類型,責(zé)任人,創(chuàng)建時間,狀態(tài),sql等),安全等級,計算邏輯等的規(guī)范化定義,用于更好地管理和使用數(shù)據(jù)。數(shù)據(jù)應(yīng)用元數(shù)據(jù),如數(shù)據(jù)報表、數(shù)據(jù)產(chǎn)品等的配置和運(yùn)行元數(shù)據(jù)。

元數(shù)據(jù)不僅定義了數(shù)據(jù)倉庫中數(shù)據(jù)的模式、來源、抽取和轉(zhuǎn)換規(guī)則等,而且是整個數(shù)據(jù)倉庫系統(tǒng)運(yùn)行的基礎(chǔ),元數(shù)據(jù)把數(shù)據(jù)倉庫系統(tǒng)中各個松散的組件聯(lián)系起來,組成了一個有機(jī)的整體。

元數(shù)據(jù)治理主要解決三個問題:

通過建立相應(yīng)的組織、流程和工具,推動業(yè)務(wù)標(biāo)準(zhǔn)的落地實(shí)施,實(shí)現(xiàn)指標(biāo)的規(guī)范定義,消除指標(biāo)認(rèn)知的歧義;

基于業(yè)務(wù)現(xiàn)狀和未來的演進(jìn)方式,對業(yè)務(wù)模型進(jìn)行抽象,制定清晰的主題、業(yè)務(wù)過程和分析方向,構(gòu)建完備的技術(shù)元數(shù)據(jù),對物理模型進(jìn)行準(zhǔn)確完善的描述,并打通技術(shù)元數(shù)據(jù)與業(yè)務(wù)元數(shù)據(jù)的關(guān)系,對物理模型進(jìn)行完備的刻畫;

通過元數(shù)據(jù)建設(shè),為使用數(shù)據(jù)提效,解決“找數(shù)、理解數(shù)、評估”難題以及“取數(shù)、數(shù)據(jù)可視化”等難題。

4. 安全治理

圍繞數(shù)據(jù)安全標(biāo)準(zhǔn),首先要有數(shù)據(jù)的分級、分類標(biāo)準(zhǔn),確保數(shù)據(jù)在上線前有著準(zhǔn)確的密級。第二,針對數(shù)據(jù)使用方,要有明確的角色授權(quán)標(biāo)準(zhǔn),通過分級分類和角色授權(quán),來保障重要數(shù)據(jù)拿不走。第三,針對敏感數(shù)據(jù),要有隱私管理標(biāo)準(zhǔn),保障敏感數(shù)據(jù)的安全存儲,即使未授權(quán)用戶繞過權(quán)限管理拿到敏感數(shù)據(jù),也要確保其看不懂。第四,通過制定審計標(biāo)準(zhǔn),為后續(xù)的審計提供審計依據(jù),確保數(shù)據(jù)走不脫。

5. 數(shù)據(jù)生命周期治理

任何事物都具有一定的生命周期,數(shù)據(jù)也不例外。從數(shù)據(jù)的產(chǎn)生、加工、使用乃至消亡都應(yīng)該有一個科學(xué)的管理辦法,將極少或者不再使用的數(shù)據(jù)從系統(tǒng)中剝離出來,并通過核實(shí)的存儲設(shè)備進(jìn)行保留,不僅能夠提高系統(tǒng)的運(yùn)行效率,更好的服務(wù)客戶,還能大幅度減少因?yàn)閿?shù)據(jù)長期保存帶來的儲存成本。數(shù)據(jù)生命周期一般包含在線階段、歸檔階段(有時還會進(jìn)一步劃分為在線歸檔階段和離線歸檔階段)、銷毀階段三大階段,管理內(nèi)容包括建立合理的數(shù)據(jù)類別,針對不同類別的數(shù)據(jù)制定各個階段的保留時間、存儲介質(zhì)、清理規(guī)則和方式、注意事項(xiàng)等。

從上圖數(shù)據(jù)生命周期中各參數(shù)間的關(guān)系中我們可以了解到,數(shù)據(jù)生命周期管理可以使得高價值數(shù)據(jù)的查詢效率大幅提升,而且高價格的存儲介質(zhì)的采購量也可以減少很多;但是隨著數(shù)據(jù)的使用程度的下降,數(shù)據(jù)被逐漸歸檔,查詢時間也慢慢的變長;最后隨著數(shù)據(jù)的使用頻率和價值基本沒有了之后,就可以逐漸銷毀了。

image.png


<上一頁  1  2  
聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯
x
*文字標(biāo)題:
*糾錯內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號