簡介:數(shù)據(jù)湖概念的誕生源于企業(yè)面臨的一些挑戰(zhàn),比如數(shù)據(jù)應該如何處理和存儲。起初,企業(yè)中各種應用程序的管理經(jīng)歷了一個相對自然的演變周期。
在開始的時候,每個應用程序都會生成和存儲大量的數(shù)據(jù),這些數(shù)據(jù)是其他應用程序無法使用的。這種情況導致數(shù)據(jù)孤島。于是數(shù)據(jù)集市應運而生,應用程序生成的數(shù)據(jù)存儲在一個集中的數(shù)據(jù)倉庫中,相關數(shù)據(jù)可以導出并傳輸給企業(yè)中需要數(shù)據(jù)的部門或個人。
然而,數(shù)據(jù)集市只解決了一些問題。剩余的問題,包括數(shù)據(jù)管理、數(shù)據(jù)所有權(quán)和訪問控制,迫切需要解決,因為企業(yè)尋求獲得更高的使用有效數(shù)據(jù)的能力。
為了解決上述問題,企業(yè)強烈要求建立自己的數(shù)據(jù)湖,不僅可以存儲傳統(tǒng)數(shù)據(jù),還可以存儲任何其他數(shù)據(jù),并可以進一步處理和分析它們,以產(chǎn)生最終輸出供各種程序消費。
在本文中,我們將介紹數(shù)據(jù)湖的一些主要方面,以幫助讀者理解為什么它對企業(yè)非常重要。
如需轉(zhuǎn)載,請聯(lián)系大數(shù)據(jù)(ID: hzdashuju)
什么是數(shù)據(jù)湖
如果需要定義數(shù)據(jù)湖,可以這樣定義:數(shù)據(jù)湖是存儲企業(yè)各種原始數(shù)據(jù)的大型倉庫,數(shù)據(jù)可以在其中訪問、處理、分析和傳輸。
數(shù)據(jù)湖從企業(yè)的多個數(shù)據(jù)源獲取原始數(shù)據(jù),出于不同的目的,同一原始數(shù)據(jù)也可能有多個滿足特定內(nèi)部模型格式的數(shù)據(jù)副本。因此,在數(shù)據(jù)湖中處理的數(shù)據(jù)可以是任何類型的信息,從結(jié)構(gòu)化數(shù)據(jù)到完全非結(jié)構(gòu)化的數(shù)據(jù)。
企業(yè)對數(shù)據(jù)湖寄予厚望,希望它能幫助用戶快速獲取有用的信息,并能在數(shù)據(jù)分析和機器學習算法中利用這些信息獲得與企業(yè)運營相關的洞察。
數(shù)據(jù)湖與企業(yè)的關系數(shù)據(jù)湖可以給企業(yè)帶來多種能力,例如,它可以實現(xiàn)數(shù)據(jù)的集中管理,在此基礎上,企業(yè)可以挖掘出許多以前沒有的能力。
此外,數(shù)據(jù)湖結(jié)合先進的數(shù)據(jù)科學和機器學習技術(shù),可以幫助企業(yè)構(gòu)建更加優(yōu)化的運營模型,也可以為企業(yè)提供其他能力,如預測分析和推薦模型,可以刺激企業(yè)能力的后續(xù)增長。
企業(yè)數(shù)據(jù)中隱藏著很多能力。然而,在重要數(shù)據(jù)被有業(yè)務數(shù)據(jù)洞察力的人使用之前,人們不能使用它們來提高企業(yè)的業(yè)務績效。
02數(shù)據(jù)湖如何幫助企業(yè)
長期以來,企業(yè)一直試圖找到一個統(tǒng)一的模型來表示企業(yè)中的所有實體。這項任務極具挑戰(zhàn)性,原因有很多,其中一些列舉如下:
一個實體在企業(yè)中可能有多種表示形式,因此可能不存在某個完備的模型來統(tǒng)一表示實體。不同的企業(yè)應用程序可能會基于特定的商業(yè)目標來處理實體,這意味著處理實體時會采用或排斥某些企業(yè)流程。不同應用程序可能會對每個實體采用不同的訪問模式及存儲結(jié)構(gòu)。這些問題困擾企業(yè)多年,阻礙了業(yè)務處理、服務定義和術(shù)語命名的標準化。
從數(shù)據(jù)湖的角度來看,我們是以另一種方式來看待這個問題的。通過使用數(shù)據(jù)湖,可以隱式實現(xiàn)更好的統(tǒng)一數(shù)據(jù)模型,而不用擔心對業(yè)務程序的實質(zhì)性影響。這些業(yè)務流程是解決具體業(yè)務問題的“專家”。數(shù)據(jù)湖根據(jù)從與實體所有者相關的所有系統(tǒng)中捕獲的全部數(shù)據(jù),盡可能“豐滿”地表示實體。
因為實體表示更好更完整,數(shù)據(jù)湖確實給企業(yè)數(shù)據(jù)處理和管理帶來了很大的幫助,讓企業(yè)對企業(yè)成長有了更多的洞察,幫助企業(yè)實現(xiàn)業(yè)務目標。
值得一提的是,馬丁·福勒(Martin Fowler)寫了一篇非常有趣的文章,其中他對企業(yè)數(shù)據(jù)湖的一些關鍵方面做了簡要的闡述,請參考以下鏈接:
https://martinfowler.com/bliki/DataLake.html
數(shù)據(jù)湖的優(yōu)點企業(yè)將在其多個業(yè)務系統(tǒng)中生成大量數(shù)據(jù)。隨著企業(yè)規(guī)模的擴大,企業(yè)還需要更智能地跨多個系統(tǒng)處理這些數(shù)據(jù)。
最基本的策略之一就是采用一個單獨的領域模型,它能夠準確地描述數(shù)據(jù),代表數(shù)據(jù)對于整體業(yè)務最有價值的部分。這些數(shù)據(jù)指的是前面提到的企業(yè)數(shù)據(jù)。
定義好企業(yè)數(shù)據(jù)的企業(yè)當然有一些管理數(shù)據(jù)的方法,所以企業(yè)數(shù)據(jù)定義的變化可以保持一致性,系統(tǒng)如何在企業(yè)內(nèi)部共享這些信息是很清楚的。
在這種情況下,系統(tǒng)分為數(shù)據(jù)所有者和數(shù)據(jù)消費者。對于企業(yè)數(shù)據(jù),需要有對應的所有者。所有者定義數(shù)據(jù)是如何被其他消費系統(tǒng)獲得的,消費系統(tǒng)扮演消費者的角色。
企業(yè)一旦對數(shù)據(jù)和系統(tǒng)有了明確的定義,就可以通過這個機制使用大量的企業(yè)信息。該機制的一個常見實現(xiàn)策略是通過構(gòu)建企業(yè)級數(shù)據(jù)湖來提供統(tǒng)一的企業(yè)數(shù)據(jù)模型。在這種機制中,數(shù)據(jù)湖負責捕獲數(shù)據(jù)、處理數(shù)據(jù)、分析數(shù)據(jù)以及為消費者系統(tǒng)提供數(shù)據(jù)服務。
數(shù)據(jù)湖可以通過以下方式幫助企業(yè):
實現(xiàn)數(shù)據(jù)治理(data governance)與數(shù)據(jù)世系。通過應用機器學習與人工智能技術(shù)實現(xiàn)商業(yè)智能。預測分析,如領域特定的推薦引擎。信息追蹤與一致性保障。根據(jù)對歷史的分析生成新的數(shù)據(jù)維度。有一個集中式的能存儲所有企業(yè)數(shù)據(jù)的數(shù)據(jù)中心,有利于實現(xiàn)一個針對數(shù)據(jù)傳輸優(yōu)化的數(shù)據(jù)服務。幫助組織或企業(yè)做出更多靈活的關于企業(yè)增長的決策。在本節(jié)中,我們將討論數(shù)據(jù)湖應該具備的功能。在下面,我們將討論和評論數(shù)據(jù)湖是如何工作的,以及如何理解它的工作機制。
數(shù)據(jù)湖是如何工作的
為了準確了解數(shù)據(jù)湖能給企業(yè)帶來什么好處,了解數(shù)據(jù)湖的工作機制以及構(gòu)建一個功能齊全的數(shù)據(jù)湖需要哪些組件就顯得尤為重要。在深入數(shù)據(jù)湖架構(gòu)的細節(jié)之前,我們不妨先了解一下數(shù)據(jù)湖背景下的數(shù)據(jù)生命周期。
在更高的層次上,數(shù)據(jù)湖中的數(shù)據(jù)生命周期如圖2-1所示。
▲圖2-1數(shù)據(jù)湖生命周期
上述生命周期也可以稱為數(shù)據(jù)湖中多個不同階段的數(shù)據(jù)。每個階段所需的數(shù)據(jù)和分析方法也是不同的。數(shù)據(jù)處理和分析可以在批處理模式或近實時模式下完成。
數(shù)據(jù)湖的實現(xiàn)需要同時支持這兩種處理方法,因為不同的處理方法服務于不同的場景。處理模式(批處理或近實時處理)的選擇也取決于數(shù)據(jù)處理或分析任務的計算量,因為許多復雜的計算無法在近實時處理模式下完成,在某些情況下,更長的處理周期是不可接受的。
同樣,存儲系統(tǒng)的選擇也取決于數(shù)據(jù)訪問的要求。例如,如果您希望在存儲數(shù)據(jù)時通過SQL查詢輕松訪問數(shù)據(jù),則所選的存儲系統(tǒng)必須支持SQL接口。
如果數(shù)據(jù)訪問需要提供數(shù)據(jù)視圖,則涉及到以相應的形式存儲數(shù)據(jù),即數(shù)據(jù)可以作為視圖提供,并且提供了方便的可管理性和可訪問性。
最近,一個越來越重要的趨勢是通過服務提供數(shù)據(jù),這涉及到在輕量級服務層上向外部世界公開數(shù)據(jù)。每一項公開提供的服務都必須準確描述服務功能,并向外界提供數(shù)據(jù)。該模型還支持基于服務的數(shù)據(jù)集成,這樣其他系統(tǒng)就可以使用數(shù)據(jù)服務提供的數(shù)據(jù)。
當數(shù)據(jù)從收集點流入數(shù)據(jù)湖時,根據(jù)其生命周期中的數(shù)據(jù)敏感性,從數(shù)據(jù)可追溯性、數(shù)據(jù)沿襲性和數(shù)據(jù)安全性等方面對其元數(shù)據(jù)進行捕獲和管理。
數(shù)據(jù)譜系被定義為數(shù)據(jù)的生命周期,包括數(shù)據(jù)的來源和數(shù)據(jù)如何隨時間移動。它描述了各種處理過程中數(shù)據(jù)的變化,有助于提供數(shù)據(jù)分析管道的可見性,簡化錯誤的可追溯性。
可追溯性是通過識別記錄來驗證數(shù)據(jù)項的歷史、位置或應用的能力。
-維基百科
04數(shù)據(jù)湖和數(shù)據(jù)倉庫的區(qū)別
在很多情況下,數(shù)據(jù)湖被認為等同于數(shù)據(jù)倉庫。事實上,數(shù)據(jù)湖和數(shù)據(jù)倉庫代表了企業(yè)想要實現(xiàn)的不同目標。表2-1顯示了它們之間的主要區(qū)別。
數(shù)據(jù)湖
數(shù)據(jù)倉庫
它可以處理所有類型的數(shù)據(jù),如結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)等。數(shù)據(jù)類型取決于數(shù)據(jù)源系統(tǒng)的原始數(shù)據(jù)格式。
只能處理結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)必須與數(shù)據(jù)倉庫的預定義模型一致。
有足夠的計算能力來處理和分析所有類型的數(shù)據(jù),分析后的數(shù)據(jù)將被存儲起來供用戶使用。
處理結(jié)構(gòu)化數(shù)據(jù),將其轉(zhuǎn)換為多維數(shù)據(jù)或報表,以滿足后續(xù)高級報表和數(shù)據(jù)分析的需要。
數(shù)據(jù)湖通常包含更多的相關信息,這些信息被訪問的概率很高,可以為企業(yè)探索新的運營需求。
數(shù)據(jù)倉庫通常用于存儲和維護長期數(shù)據(jù),因此可以按需訪問數(shù)據(jù)。
▲表2-1數(shù)據(jù)湖和數(shù)據(jù)倉庫的主要區(qū)別
從表2-1可以看出,數(shù)據(jù)湖和數(shù)據(jù)倉庫的區(qū)別很明顯。但是在企業(yè)中,兩者的功能是互補的,數(shù)據(jù)湖的出現(xiàn)不應該被認為是取代了數(shù)據(jù)倉庫。畢竟兩者功能完全不同。
05數(shù)據(jù)湖的構(gòu)建方法
不同的組織有不同的偏好,所以他們用不同的方式構(gòu)建數(shù)據(jù)湖。構(gòu)建方式與業(yè)務、處理流程、現(xiàn)有系統(tǒng)有關。
一個簡單的數(shù)據(jù)湖實現(xiàn)幾乎等同于定義一個中央數(shù)據(jù)源,所有系統(tǒng)都可以使用它來滿足所有的數(shù)據(jù)需求。盡管這種方法可能簡單且具有成本效益,但由于以下原因,它可能不是一種非常實用的方法:
只有當這些組織重新開始構(gòu)建其信息系統(tǒng)時,這種方法才可行。這種方法解決不了與現(xiàn)存系統(tǒng)相關的問題。即使組織決定用這種方法構(gòu)建數(shù)據(jù)湖,也缺乏明確的責任和關注點隔離(responsibility and separation of concerns)。這樣的系統(tǒng)通常嘗試一次性完成所有的工作,但是最終會隨著數(shù)據(jù)事務、分析和處理需求的增加而分崩離析。構(gòu)建數(shù)據(jù)湖的一個更好的策略是將企業(yè)及其信息系統(tǒng)作為一個整體來對待,對數(shù)據(jù)所有權(quán)關系進行分類,并定義一個統(tǒng)一的企業(yè)模型。
雖然這種方法可能會有與流程相關的挑戰(zhàn),并且可能需要更多的努力來定義系統(tǒng)元素,但它仍然可以提供所需的靈活性、控制和清晰的數(shù)據(jù)定義,以及企業(yè)中不同系統(tǒng)實體之間的關注點分離。
這樣的數(shù)據(jù)湖還可以有一個獨立的機制來捕獲、處理和分析數(shù)據(jù),并為消費者應用程序提供數(shù)據(jù)服務。
關于作者:Tomcy John是企業(yè)級Java技術(shù)專家,擁有工程學士學位,14年以上行業(yè)開發(fā)經(jīng)驗。
Pankaj Misra是一名技術(shù)傳播者,擁有工程學士學位和超過16年的跨多個業(yè)務領域的技術(shù)經(jīng)驗。
本文節(jié)選自企業(yè)數(shù)據(jù)湖,由出版商授權(quán)。
企業(yè)數(shù)據(jù)湖的擴展閱讀
點擊上圖學習購買
轉(zhuǎn)載請聯(lián)系微信:多哥丸子
推薦:本書旨在幫助您選擇合適的大數(shù)據(jù)技術(shù),使用Lambda架構(gòu)模式為企業(yè)構(gòu)建自己的數(shù)據(jù)湖?!皵?shù)據(jù)湖”已經(jīng)成為大數(shù)據(jù)行業(yè)的一個重要術(shù)語。它是數(shù)據(jù)科學家獲得有意義的見解的平臺,企業(yè)可以利用它來重新定義或改變自己的運營模式。
▼
問:關于數(shù)據(jù)湖,你還想知道什么?
轉(zhuǎn)載/提交請聯(lián)系:baiyu@hzbook.com
1.《數(shù)據(jù)湖 什么是數(shù)據(jù)湖?有什么用?終于有人講明白了……》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡信息知識,僅代表作者本人觀點,與本網(wǎng)站無關,侵刪請聯(lián)系頁腳下方聯(lián)系方式。
2.《數(shù)據(jù)湖 什么是數(shù)據(jù)湖?有什么用?終于有人講明白了……》僅供讀者參考,本網(wǎng)站未對該內(nèi)容進行證實,對其原創(chuàng)性、真實性、完整性、及時性不作任何保證。
3.文章轉(zhuǎn)載時請保留本站內(nèi)容來源地址,http://f99ss.com/tiyu/1178107.html