編輯指南:您是否想了解在現(xiàn)有數(shù)據(jù)平臺上使用數(shù)據(jù)時(shí)企業(yè)遇到的常見問題或挑戰(zhàn)、數(shù)據(jù)治理、治理類別、數(shù)據(jù)治理等?這篇文章作者會(huì)詳細(xì)說明這些問題,一起看吧!

現(xiàn)有信息體系結(jié)構(gòu)階段,各部門根據(jù)業(yè)務(wù)需求,在不同時(shí)期在不同的技術(shù)環(huán)境下建立了自己的信息系統(tǒng),創(chuàng)建了“信息島”應(yīng)用程序。

隨著大數(shù)據(jù)時(shí)代的到來,為解決系統(tǒng)孤島的現(xiàn)象,現(xiàn)如今各行各業(yè)都在進(jìn)行大數(shù)據(jù)平臺的建設(shè),都想通過大數(shù)據(jù)的能力實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型,而數(shù)據(jù)治理作為實(shí)現(xiàn)企業(yè)數(shù)據(jù)價(jià)值的第一步,也就越來越被重視。

實(shí)際上,大數(shù)據(jù)平臺的建設(shè)本質(zhì)還是數(shù)據(jù)的建設(shè),企業(yè)只有保證數(shù)據(jù)的可見、可用、易用、可運(yùn)營,才能盡快依靠數(shù)據(jù)成為重要的生產(chǎn)力。

然而,企業(yè)在傳統(tǒng)數(shù)據(jù)平臺碰到的所有問題,在大數(shù)據(jù)平臺也有可能遇到。且隨著數(shù)據(jù)量級的變化,大數(shù)據(jù)平臺必然還會(huì)產(chǎn)生新的問題。

一、企業(yè)使用數(shù)據(jù)時(shí)遇到的常見問題和挑戰(zhàn)

那么,企業(yè)在傳統(tǒng)數(shù)據(jù)平臺使用數(shù)據(jù)時(shí)會(huì)遇見哪些常見問題或挑戰(zhàn)呢?

為幫助你快速理解,下面我將通過一個(gè)真實(shí)案例進(jìn)行切入。

數(shù)據(jù)分析師:“老大,昨天會(huì)議上你說的供應(yīng)商評價(jià)場景,我感覺目前數(shù)據(jù)存在問題。你看 10 年前上的系統(tǒng)與去年上的新系統(tǒng)供應(yīng)商編碼、物料編碼、人員編碼、數(shù)據(jù)單位都不一致,根本關(guān)聯(lián)不起來。

就拿其中一個(gè)指標(biāo)來說吧,近 3 年的及時(shí)到貨量 = 及時(shí)到貨數(shù)量 / 到貨數(shù)量,目前我們連這個(gè)簡單的場景都做不了。因?yàn)楫?dāng)時(shí)編碼沒有定規(guī)則,企業(yè)沒有制定統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn),不僅這個(gè)場景做不了,涉及需要大量歷史數(shù)據(jù)訓(xùn)練 AI 模型的場景也無法實(shí)現(xiàn)?!?/p>

老大:“他們沒有上主數(shù)據(jù)系統(tǒng)以此保證主數(shù)據(jù)的一致性嗎?也沒有人定義標(biāo)準(zhǔn)?看來這個(gè)坑不小呀。下面我們抓緊建立一套數(shù)據(jù)質(zhì)量體系吧,針對不符合規(guī)范的內(nèi)容,通過郵件定時(shí)發(fā)送給業(yè)務(wù)部門負(fù)責(zé)人。通知發(fā)送后,如果再出現(xiàn)問題那就是業(yè)務(wù)部門的事情了,要不然老板還懷疑我們的能力不行,這個(gè)鍋我們不背?!?/p>

算法工程師:“老大,要訓(xùn)練的銷量預(yù)測數(shù)據(jù)感覺有問題,問了一圈業(yè)務(wù)領(lǐng)域的人,就沒有一個(gè)對歷史數(shù)據(jù)全局能說明白的,每個(gè)人都只知道自己的那一塊數(shù)據(jù)。我看了一下,營銷數(shù)據(jù)、訂單數(shù)據(jù)、采購數(shù)據(jù)、供應(yīng)鏈數(shù)據(jù)統(tǒng)計(jì)口徑都不一致。我已經(jīng)很盡力地拉了幾次會(huì)議了,可每次組織會(huì)議時(shí),大家都有時(shí)間的情況不多,所以這個(gè)事情部門之間就推來推去,都想讓其他部門改,最后會(huì)議都是以不了了之收場?!?/p>

研發(fā)工程師:“老大,昨天采購那邊好像改了什么字段或數(shù)據(jù),導(dǎo)致下游的報(bào)表數(shù)據(jù)都出現(xiàn)了問題,今晚又得加班了,主要是現(xiàn)在還不清楚問題到底在哪?”

通過以上這段對話可知,數(shù)據(jù)治理一般存在以下 4 種挑戰(zhàn):

第一,數(shù)據(jù)不可知:作為業(yè)務(wù)人員/企業(yè)管理者不清楚數(shù)據(jù)與業(yè)務(wù)之間的關(guān)系到底是什么,對于數(shù)據(jù)資產(chǎn)完全不清晰。

第二,數(shù)據(jù)不可控:現(xiàn)有數(shù)據(jù)質(zhì)量不高,導(dǎo)致業(yè)務(wù)人員的工作瑣碎,工作量巨大,且容易出錯(cuò)。

第三,數(shù)據(jù)不可取:業(yè)務(wù)人員無法根據(jù)真實(shí)需求從數(shù)據(jù)源中快速提取數(shù)據(jù),導(dǎo)致業(yè)務(wù)需求無法快速被滿足。

第四,數(shù)據(jù)不關(guān)聯(lián):因各個(gè)數(shù)據(jù)之間沒有任何關(guān)聯(lián)性,導(dǎo)致數(shù)據(jù)難以支撐企業(yè)實(shí)際業(yè)務(wù)。

也正是因?yàn)樗褂玫臄?shù)據(jù)存在一系列的問題,且問題還在不斷涌現(xiàn),所以企業(yè)有必要對數(shù)據(jù)進(jìn)行治理,以此提升數(shù)據(jù)的價(jià)值,并為企業(yè)實(shí)現(xiàn)數(shù)字化戰(zhàn)略打好基礎(chǔ)。

既然數(shù)據(jù)治理如此重要,下面我們就一起來看看到底什么是數(shù)據(jù)治理?數(shù)據(jù)治理的范疇包含哪些?到底如何落地?cái)?shù)據(jù)治理?

二、什么是數(shù)據(jù)治理?治理范疇是什么?

數(shù)據(jù)治理是一種帶有強(qiáng)烈目的的實(shí)踐活動(dòng),它以數(shù)據(jù)為核心對象,涉及政府、企業(yè)、個(gè)人等各類參與主體,覆蓋數(shù)據(jù)全生命周期中的各種過程和狀態(tài),利用手段和活動(dòng)釋放、保護(hù)數(shù)據(jù)的價(jià)值。

學(xué)習(xí)了數(shù)據(jù)治理的概念后,我通過一張數(shù)據(jù)治理“4W1H”模型圖說明數(shù)據(jù)治理的范疇,以幫助你快速理解。

通過上圖,我們已經(jīng)很清晰地知道數(shù)據(jù)治理范疇包含了哪些。然而,隨著業(yè)務(wù)不斷生成海量數(shù)據(jù),并將其轉(zhuǎn)移到云中,數(shù)據(jù)管理動(dòng)態(tài)的基本方式也在不斷發(fā)生變化,因此,在提升大數(shù)據(jù)治理能力時(shí),企業(yè)需要額外特別關(guān)注以下 5 個(gè)管理范疇:

(1)風(fēng)險(xiǎn)管理

人們擔(dān)心敏感信息可能會(huì)暴露給未授權(quán)的個(gè)人/系統(tǒng)、安全漏洞、已未知人員在錯(cuò)誤的情況下訪問數(shù)據(jù),為此,各組織都在尋求將這種風(fēng)險(xiǎn)降到最低的方法。一旦系統(tǒng)遭遇破壞,就需要使用額外形式的保護(hù)方式(如加密)來混淆數(shù)據(jù)對象的嵌入信息,以此保護(hù)數(shù)據(jù)。

此外,還需要其他工具支持訪問管理、識別敏感數(shù)據(jù)資產(chǎn),并圍繞其保護(hù)創(chuàng)建策略。

(2)數(shù)據(jù)增值

隨著企業(yè)創(chuàng)建、更新和流化數(shù)據(jù)資產(chǎn)的速度不斷提高,雖然云平臺能夠處理更高的數(shù)據(jù)速度、數(shù)據(jù)容量和數(shù)據(jù)多樣性,卻仍需要引入控制和機(jī)制以便快速驗(yàn)證高速數(shù)據(jù)流的質(zhì)量,這很有必要。

(3)數(shù)據(jù)管理

采用外部產(chǎn)生的數(shù)據(jù)源和數(shù)據(jù)流(包括來自第三方的付費(fèi)數(shù)據(jù))的需求,意味著應(yīng)該做好不相信所有外部數(shù)據(jù)源的準(zhǔn)備??赡苄枰胗涗洈?shù)據(jù)血緣、分類和元數(shù)據(jù) 的工具,以幫助員工(特別是數(shù)據(jù)消費(fèi)者)根據(jù)他們對數(shù)據(jù)資產(chǎn)生成方式的了解確定數(shù)據(jù)可用性。

(4)數(shù)據(jù)發(fā)現(xiàn)

將數(shù)據(jù)移動(dòng)到任何類型的數(shù)據(jù)湖(基于云的或本地的)都有可能失去對已移動(dòng)的數(shù)據(jù)資產(chǎn)、其內(nèi)容的特征和元數(shù)據(jù)的詳細(xì)信息的跟蹤。因此,評估數(shù)據(jù)資產(chǎn)內(nèi)容和敏感性(無論數(shù)據(jù)在哪里)的能力變得非常重要。

(5)隱私和法規(guī)

法規(guī)遵從性要求可審計(jì)和可衡量的標(biāo)準(zhǔn)和程序,以確保符合內(nèi)部數(shù)據(jù)政策和外部政府法規(guī)。將數(shù)據(jù)遷移到云意味著組織需要工具來執(zhí)行、監(jiān)視和報(bào)告遵從性,并確保正確的人員和服務(wù)對正確的數(shù)據(jù)具有訪問和權(quán)限。

掌握了數(shù)據(jù)治理的概念、管理范疇后,那么企業(yè)如何落地?cái)?shù)據(jù)治理呢?下面一一為你揭曉。

三、如何落地?cái)?shù)據(jù)治理?

在落地?cái)?shù)據(jù)治理過程中,企業(yè)往往需要經(jīng)過如下三個(gè)階段:

1. 整體規(guī)劃階段

在這個(gè)階段,數(shù)據(jù)管理經(jīng)常使用的兩大理論是 DCMM、DMBok,在國內(nèi),企業(yè)主要采用的是 DCMM 方法論體系。

在數(shù)據(jù)治理整體規(guī)劃階段,企業(yè)需要通過 6 步走策略進(jìn)行落地:

  1. 現(xiàn)狀調(diào)研與需求分析:通過收集資料、現(xiàn)場采訪了解業(yè)務(wù)現(xiàn)狀、信息化現(xiàn)狀等,再通過數(shù)據(jù)分析,形成現(xiàn)狀與差距評估報(bào)告。
  2. 藍(lán)圖規(guī)劃:通過問題盤點(diǎn),制定愿景使命與目標(biāo)、治理路線、各類體系。
  3. 平臺建設(shè):實(shí)施方案策劃、總體推進(jìn)計(jì)劃輸出、資源規(guī)劃。
  4. 摸家底:需要輸出各類定準(zhǔn)表標(biāo)準(zhǔn)文檔。
  5. 落平臺:企業(yè)各類數(shù)據(jù)相關(guān)人員需要按照制定的相關(guān)標(biāo)準(zhǔn)進(jìn)行執(zhí)行。
  6. 抓運(yùn)營:通過數(shù)據(jù)質(zhì)檢平臺進(jìn)行檢核,對不滿足的數(shù)據(jù)要求對應(yīng)部門整改。

2. 調(diào)研、定框架、落標(biāo)準(zhǔn)階段:輸出標(biāo)準(zhǔn)階段產(chǎn)出物

在調(diào)研、定框架、落標(biāo)準(zhǔn)階段,就需要輸出各類標(biāo)準(zhǔn)階段產(chǎn)出物。這類標(biāo)準(zhǔn)產(chǎn)出物主要分為行業(yè)標(biāo)準(zhǔn)、國際標(biāo)準(zhǔn)、企業(yè)標(biāo)準(zhǔn)、業(yè)務(wù)標(biāo)準(zhǔn)等,如果涉及技術(shù)中、產(chǎn)品中的各個(gè)模塊時(shí),它們可以再進(jìn)行具體劃分。

如下截圖是我給一家大型企業(yè)落地?cái)?shù)據(jù)標(biāo)準(zhǔn)過程中梳理的各類標(biāo)準(zhǔn)文檔,如果你想獲取對應(yīng)資料,歡迎關(guān)注公眾號進(jìn)行了解:

3. 標(biāo)準(zhǔn)落地階段

數(shù)據(jù)標(biāo)準(zhǔn)梳理完了,企業(yè)就需要落實(shí)到數(shù)據(jù)開發(fā)、數(shù)據(jù)運(yùn)營的各個(gè)環(huán)節(jié),只有這樣才能構(gòu)成一個(gè)完整的數(shù)據(jù)生命周期管理。

(1)主數(shù)據(jù)開發(fā)

在主數(shù)據(jù)開發(fā)過程中,我們需要通過主數(shù)據(jù)平臺進(jìn)行數(shù)據(jù)的模型開發(fā)、數(shù)據(jù)采集、收據(jù)分發(fā)與訂閱、主數(shù)據(jù)的申請、數(shù)據(jù)接入等。

(2)數(shù)倉建設(shè)

在數(shù)倉建設(shè)過程中,我們需要遵循如下標(biāo)準(zhǔn):

  • 數(shù)據(jù)開發(fā):數(shù)據(jù)開發(fā)實(shí)現(xiàn)數(shù)據(jù)倉庫需要遵循數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范化文檔(見產(chǎn)品人棲息地?cái)?shù)倉課程)
  • 數(shù)據(jù)模型架構(gòu)原則:數(shù)倉分層原則、主題域劃分原則、數(shù)據(jù)模型設(shè)計(jì)原則。
  • 數(shù)倉公共開發(fā)規(guī)范:層次調(diào)用規(guī)范、數(shù)據(jù)類型規(guī)范、數(shù)據(jù)冗余規(guī)范、NULL字段處理規(guī)范、指標(biāo)口徑規(guī)范、數(shù)據(jù)表處理規(guī)范、表的生命周期管理。
  • 數(shù)倉命名規(guī)范:詞根設(shè)計(jì)規(guī)范、表命名規(guī)范、指標(biāo)命名規(guī)范。
  • 數(shù)倉各層開發(fā)規(guī)范:ODS 層設(shè)計(jì)規(guī)范、公共維度層設(shè)計(jì)規(guī)范、DWD 明細(xì)層設(shè)計(jì)規(guī)范、DWS 公共匯總層設(shè)計(jì)規(guī)范。

(3)指標(biāo)開發(fā)

在指標(biāo)開發(fā)階段,我們需要遵循原子指標(biāo)、派生指標(biāo)、復(fù)合指標(biāo)的落地標(biāo)準(zhǔn)。

  • 全局設(shè)計(jì):用來劃分?jǐn)?shù)據(jù)總線,這是數(shù)據(jù)標(biāo)準(zhǔn),落地成數(shù)據(jù)總線文檔。
  • 原子指標(biāo):用來定義業(yè)務(wù)過程中的度量邏輯,比如:SUM、COUNT、MAX、MIN、AVERAGE、STDDEV、VAR 等。
  • 派生指標(biāo):落地后屬于真正業(yè)務(wù)意義上的 DWS 層指標(biāo)。
  • 復(fù)合指標(biāo):基于指標(biāo)之間的計(jì)算獲得。

在這個(gè)階段,我們需要清晰地知道原子指標(biāo)、派生指標(biāo)之間的關(guān)系,如下圖所示:

當(dāng)然,我們也需要很清晰地知道指標(biāo)與數(shù)倉之間的關(guān)系。指標(biāo)是模型層的上層應(yīng)用,在可視化、規(guī)范化指標(biāo)建設(shè)中,它反過來可落地成每個(gè)主題中的模型。

(4)標(biāo)簽開發(fā)

標(biāo)簽根據(jù)來源可以劃分為原子標(biāo)簽、衍生標(biāo)簽、組合標(biāo)簽、自定義標(biāo)簽、算法標(biāo)簽這幾種,如下說明:

  • 原子標(biāo)簽:體的原始數(shù)據(jù)維度,它可以是實(shí)體的基本屬性,如性別、年齡、性別等,也可以是經(jīng)過加工的數(shù)據(jù),如會(huì)員等級、年收入、年消費(fèi)金額等。原子標(biāo)簽一般來源于離線計(jì)算DWS層的一個(gè)結(jié)果表,讀入標(biāo)簽系統(tǒng)中,衍生標(biāo)簽和組合標(biāo)簽基于此計(jì)算。
  • 衍生標(biāo)簽:可以通過實(shí)體的主表、輔表或關(guān)系表的基礎(chǔ)字段來創(chuàng)建,支持配置規(guī)則或?qū)?SQL 兩種加工方式。
  • 組合標(biāo)簽:屬于規(guī)則類標(biāo)簽,它是多個(gè)標(biāo)簽的組合,由原子標(biāo)簽、衍生標(biāo)簽、自定義標(biāo)簽組合而成。
  • 自定義標(biāo)簽:通過導(dǎo)入標(biāo)簽數(shù)據(jù)的方式創(chuàng)建的標(biāo)簽。
  • 算法標(biāo)簽:通過機(jī)器學(xué)習(xí)分類學(xué)習(xí)得到的標(biāo)簽。

當(dāng)然,標(biāo)簽也可以根據(jù)內(nèi)容側(cè)和場景主題進(jìn)行劃分。

在實(shí)際落地過程中,我們需要清楚地知道標(biāo)簽的分層邏輯:原子標(biāo)簽 ——組合標(biāo)簽—— 業(yè)務(wù)標(biāo)簽,且要清楚標(biāo)簽也需要遵循一定的規(guī)范。

然而,現(xiàn)實(shí)中很多企業(yè)在給實(shí)體打標(biāo)簽時(shí),因?yàn)闆]有遵循一定的規(guī)范,使得標(biāo)簽越來越不精準(zhǔn),業(yè)務(wù)人員也感覺越來越力不從心。久而久之,隨著標(biāo)簽越來越多,業(yè)務(wù)人員也就更加不知所措,標(biāo)簽的維護(hù)成本也越來越高……

比如,很多企業(yè)給一個(gè)實(shí)體(用戶/企業(yè))打了很多標(biāo)簽,在使用時(shí)卻并不清楚當(dāng)初標(biāo)簽是如何定義的,能用于什么場景。此時(shí),如果發(fā)生“標(biāo)簽爆炸”,那么這套系統(tǒng)就會(huì)被玩壞了。

(5)數(shù)據(jù)運(yùn)營

在數(shù)據(jù)運(yùn)營階段,我們需要對任何模型進(jìn)行數(shù)據(jù)質(zhì)檢,最終生成對應(yīng)的數(shù)據(jù)報(bào)告,且報(bào)送對應(yīng)業(yè)務(wù)線需要對發(fā)生問題的數(shù)據(jù)進(jìn)行處理,這就形成了一套從標(biāo)準(zhǔn)、制定檢核任務(wù)、根據(jù)質(zhì)檢結(jié)果進(jìn)行 check、對數(shù)據(jù)進(jìn)行梳理或者發(fā)現(xiàn)缺少的標(biāo)準(zhǔn)進(jìn)行補(bǔ)充的完善 PDCA 數(shù)據(jù)治理閉環(huán)。

數(shù)據(jù)運(yùn)營階段我們要做哪些事情呢 ?比如數(shù)據(jù)格式不規(guī)范、空值、數(shù)據(jù)趨勢波動(dòng)趨勢、值域等問題,我們可以通過數(shù)據(jù)質(zhì)檢平臺進(jìn)行質(zhì)檢。

數(shù)據(jù)質(zhì)檢平臺主要包括兩方面的能力:技術(shù)側(cè)檢測規(guī)則、數(shù)據(jù)質(zhì)量。指定檢核規(guī)則需要從數(shù)據(jù)的一致性、唯一性、準(zhǔn)確性、有效性、及時(shí)性、完整性這 6 個(gè)維度進(jìn)行梳理。

如下圖是數(shù)據(jù)的一致性、唯一性、準(zhǔn)確性、有效性、及時(shí)性、完整性案例,建議收藏,在其他地方估計(jì)你很難再找到這么詳細(xì)的數(shù)據(jù)檢核規(guī)則文檔了:

然后,經(jīng)過定時(shí)的任務(wù)調(diào)度,生成數(shù)據(jù)質(zhì)量檢核報(bào)告。在報(bào)告中,我們就可以看到每個(gè)數(shù)據(jù)維度上存在的問題及存在問題的具體數(shù)據(jù),再將對應(yīng)的數(shù)據(jù)下發(fā)到對應(yīng)的部門進(jìn)行復(fù)盤,該調(diào)整的調(diào)整,該增加規(guī)范的增加。

四、小結(jié)

企業(yè)從關(guān)注技術(shù)到關(guān)注數(shù)據(jù)治理和運(yùn)營,是對數(shù)據(jù)價(jià)值本身的回歸。

因此,在大數(shù)據(jù)時(shí)代,企業(yè)必須盤活業(yè)務(wù)數(shù)據(jù),并構(gòu)建一套從數(shù)據(jù)展示、數(shù)據(jù)分析、數(shù)據(jù)挖掘等多場景的高效應(yīng)用,唯有如此才能在激烈的競爭中脫穎而出。這就要求企業(yè)不僅僅需要關(guān)注現(xiàn)在數(shù)據(jù)中臺化的能力,還需要基于數(shù)據(jù)中臺在落地?cái)?shù)據(jù)治理過程中做統(tǒng)一的數(shù)據(jù)規(guī)劃。

未來,我相信,隨著大數(shù)據(jù)與人工智能的發(fā)展,越來越多的智能場景將被賦能自動(dòng)化業(yè)務(wù)。

公眾號:產(chǎn)品人棲息地

本文由 @DataSir 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

1.《網(wǎng)站視頻未知錯(cuò)誤怎么解決方法看這里!企業(yè)究竟該如何落地?cái)?shù)據(jù)治理?》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識,僅代表作者本人觀點(diǎn),與本網(wǎng)站無關(guān),侵刪請聯(lián)系頁腳下方聯(lián)系方式。

2.《網(wǎng)站視頻未知錯(cuò)誤怎么解決方法看這里!企業(yè)究竟該如何落地?cái)?shù)據(jù)治理?》僅供讀者參考,本網(wǎng)站未對該內(nèi)容進(jìn)行證實(shí),對其原創(chuàng)性、真實(shí)性、完整性、及時(shí)性不作任何保證。

3.文章轉(zhuǎn)載時(shí)請保留本站內(nèi)容來源地址,http://f99ss.com/gl/3129371.html