1.數(shù)據(jù)倉庫DW
1.1簡介
Data warehouse(可以縮寫為DW或DWH)數(shù)據(jù)倉庫是在數(shù)據(jù)庫已經(jīng)存在很多的情況下進一步挖掘數(shù)據(jù)資源并為決策需求而創(chuàng)建的。包括ETL、調(diào)度、建模在內(nèi)的完整理論體系。數(shù)據(jù)倉庫的方案構(gòu)建主要應(yīng)用于基于前端查詢和分析的在線分析處理(OLAP),支持復雜的分析任務(wù),側(cè)重決策支持,聽取和提供直觀易懂的查詢結(jié)果。更受歡迎的有AWS Redshift、Greenplum、Hive等。
1.2主要特性
面向主題:生產(chǎn)數(shù)據(jù)庫組織面向事務(wù)操作,而數(shù)據(jù)倉庫中的數(shù)據(jù)根據(jù)特定主題域進行組織。主題是指用戶在使用數(shù)據(jù)倉庫進行決策時感興趣的關(guān)鍵方面,其中一個主題與多個運營信息系統(tǒng)相關(guān)。整合需要對源數(shù)據(jù)進行處理和融合,在整合和集成處理過程中,必須消除源數(shù)據(jù)的不一致,以確保數(shù)據(jù)倉庫內(nèi)信息的企業(yè)一致性全局信息。(關(guān)系關(guān)系)不可修改的DW中的數(shù)據(jù)不是最新的,而是來自其他數(shù)據(jù)源數(shù)據(jù)倉庫的數(shù)據(jù),主要用于決策分析。涉及的操作主要是數(shù)據(jù)查詢和與時間相關(guān)的決策所需的數(shù)據(jù)倉庫中的數(shù)據(jù)必須顯示時間屬性1.3和數(shù)據(jù)庫比較。
DW:是專門為分析數(shù)據(jù)而設(shè)計的,包括讀取大量數(shù)據(jù),以了解數(shù)據(jù)之間的關(guān)系和趨勢數(shù)據(jù)庫。用于捕獲和存儲數(shù)據(jù)特性
數(shù)據(jù)倉庫
交易數(shù)據(jù)庫
合適的工作負載
分析、報告、大數(shù)據(jù)
交易
數(shù)據(jù)源
從多個來源收集和標準化的數(shù)據(jù)
從單一來源(例如交易系統(tǒng))擷取的資料
數(shù)據(jù)捕獲
批量寫入操作根據(jù)計劃的批處理計劃執(zhí)行
使用新數(shù)據(jù)可以最大限度地提高事務(wù)吞吐量,從而優(yōu)化了順序?qū)懭氩僮?
數(shù)據(jù)標準化
非標準化架構(gòu),例如星型架構(gòu)或楔形架構(gòu)
高度標準化的靜態(tài)架構(gòu)
數(shù)據(jù)存儲區(qū)
為了便于訪問和高速查詢性能,使用熱存儲進行了優(yōu)化
針對在單行物理塊上執(zhí)行高吞吐量寫操作進行了優(yōu)化
數(shù)據(jù)訪問
為最大限度地減少I/O和最大限度地提高數(shù)據(jù)吞吐量而優(yōu)化
大量小規(guī)模讀取操作
2.數(shù)據(jù)分層
數(shù)據(jù)分層,每個企業(yè)可以根據(jù)業(yè)務(wù)需求劃分為不同的層,但最基本的分層概念理論上是將數(shù)據(jù)劃分為三層:數(shù)據(jù)操作層、數(shù)據(jù)倉庫層和數(shù)據(jù)服務(wù)層?;谶@些基本層,提交信息層以滿足各種業(yè)務(wù)需求。
2.1數(shù)據(jù)操作層(ODS)
ODS:Operation Data Store數(shù)據(jù)準備區(qū)域(也稱為paste source layer)。數(shù)據(jù)倉庫源系統(tǒng)中的數(shù)據(jù)表存儲未更改的副本,通常稱為ODS層,是后續(xù)數(shù)據(jù)倉庫處理數(shù)據(jù)的源。ODS層數(shù)據(jù)的來源方法:業(yè)務(wù)庫經(jīng)常使用sqoop提取(例如,每天定期提取一次)??梢钥紤]實時以canal方式接收MySQL的binlog。只需要實時訪問。埋置日志日志通常存儲為文件,可以使用flume計時同步使用spark streaming或Flink實時訪問Kafka或OK消息隊列(例如,ActiveMQ、Kafka中的數(shù)據(jù)等)。2.2數(shù)據(jù)倉庫層(DW)
DW數(shù)據(jù)從下到上分層為DWD、DWB和DWS。
DWD:data warehouse details詳細數(shù)據(jù)層。這是將業(yè)務(wù)層與數(shù)據(jù)倉庫分開的層。主要對ODS數(shù)據(jù)層執(zhí)行數(shù)據(jù)清理和規(guī)范化操作。數(shù)據(jù)清理:空值、清除骯臟數(shù)據(jù)、超出限制范圍的DWB:數(shù)據(jù)倉庫數(shù)據(jù)基礎(chǔ)層、客觀數(shù)據(jù)存儲、通常用作中間層、可視為大量指標的數(shù)據(jù)層。DWS:data warehouse service數(shù)據(jù)服務(wù)層,合并為根據(jù)DWB的基礎(chǔ)數(shù)據(jù)分析主題域的服務(wù)數(shù)據(jù)層(通常是寬表)。用于提供后續(xù)業(yè)務(wù)查詢、OLAP分析、數(shù)據(jù)分發(fā)等。用戶行為、輕微聚合主要提供ODS/DWD層數(shù)據(jù)的輕微摘要。2.3數(shù)據(jù)服務(wù)層/應(yīng)用程序?qū)?ADS)
ADS:應(yīng)用程序數(shù)據(jù)服務(wù)應(yīng)用程序數(shù)據(jù)服務(wù)。提供主要用于數(shù)據(jù)產(chǎn)品和數(shù)據(jù)分析的數(shù)據(jù),通常存儲在ES、MySQL等系統(tǒng)中,以便在聯(lián)機系統(tǒng)中使用。我們說的報告數(shù)據(jù),或者通過那種寬表,通常放在這里。
1.《【dwd022】數(shù)據(jù)倉庫層的ODS、DWD、DWS》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識,僅代表作者本人觀點,與本網(wǎng)站無關(guān),侵刪請聯(lián)系頁腳下方聯(lián)系方式。
2.《【dwd022】數(shù)據(jù)倉庫層的ODS、DWD、DWS》僅供讀者參考,本網(wǎng)站未對該內(nèi)容進行證實,對其原創(chuàng)性、真實性、完整性、及時性不作任何保證。
3.文章轉(zhuǎn)載時請保留本站內(nèi)容來源地址,http://f99ss.com/gl/2490175.html