數(shù)據(jù)處理是數(shù)據(jù)產(chǎn)品經(jīng)理最重要的部分,與最終報(bào)告顯示、分析報(bào)告、數(shù)據(jù)驅(qū)動(dòng)相比,往往需要較長(zhǎng)的時(shí)間,價(jià)值較低。我們經(jīng)常聽(tīng)到相同的功能數(shù)據(jù)分析結(jié)果恰恰相反。追溯原因發(fā)現(xiàn)數(shù)據(jù)處理過(guò)程中存在錯(cuò)誤等。(大衛(wèi)亞設(shè))。

從句數(shù)據(jù)產(chǎn)品的角度,介紹了數(shù)據(jù)采集后數(shù)據(jù)流處理過(guò)程數(shù)據(jù)產(chǎn)品輸出密切相關(guān)的數(shù)據(jù)倉(cāng)庫(kù)。

一. 數(shù)據(jù)處理過(guò)程

數(shù)據(jù)產(chǎn)品經(jīng)理的大部分工作都是將無(wú)法預(yù)測(cè)的數(shù)據(jù)轉(zhuǎn)換為可見(jiàn)報(bào)告,結(jié)論性分析報(bào)告——從各種異構(gòu)數(shù)據(jù)源匯總數(shù)據(jù),最終以報(bào)告、儀表板、動(dòng)態(tài)數(shù)據(jù)分析查詢、結(jié)論性分析報(bào)告等形式展示。

1.有哪些異構(gòu)數(shù)據(jù)源?

服務(wù)端,客戶端用戶行為日志用戶過(guò)去的信息,定性信息。性別、職業(yè)的用戶畫(huà)像數(shù)據(jù))、定量信息。最近30天的關(guān)注傾向程度)從第三方等獲得的信息、E.G .爬蟲(chóng)數(shù)據(jù)、手動(dòng)整理的數(shù)據(jù)等2。這個(gè)信息大部分需要二次加工、清潔、清洗。

臟數(shù)據(jù)的清理、整合、E.G .延遲數(shù)據(jù)根據(jù)發(fā)生日期進(jìn)行匯總。創(chuàng)建基本表以提高數(shù)據(jù)的易用性。E.G .創(chuàng)建用戶基本數(shù)據(jù)、行為數(shù)據(jù)的基本表報(bào)告、可直接應(yīng)用于分析的用戶行為結(jié)構(gòu)業(yè)務(wù)應(yīng)用程序表。粗略敘述的兩個(gè)階段是影響報(bào)告展示、分析結(jié)論的關(guān)鍵,也是數(shù)據(jù)產(chǎn)品經(jīng)理最需要細(xì)心處理的地方。

二. 數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse)

數(shù)據(jù)處理過(guò)程往往很模糊,但“異構(gòu)數(shù)據(jù)源-結(jié)構(gòu)化數(shù)據(jù)表-報(bào)告/分析報(bào)告”過(guò)程中常見(jiàn)的各種數(shù)據(jù)庫(kù)表是數(shù)據(jù)倉(cāng)庫(kù)中的實(shí)體,如典型的hive、spark、Oracle等。那么,在數(shù)據(jù)產(chǎn)品經(jīng)理的日常數(shù)據(jù)處理中,應(yīng)該注意哪些數(shù)據(jù)倉(cāng)庫(kù)知識(shí)點(diǎn)?

1. 數(shù)據(jù)倉(cāng)庫(kù)分層

為什么要分層?

更清晰的管理、數(shù)據(jù)跟蹤(清晰的數(shù)據(jù)結(jié)構(gòu)、明確的血緣關(guān)系):有助于找到數(shù)據(jù)處理的整個(gè)鏈接。通過(guò)建立通用臨時(shí)表減少重復(fù)計(jì)算:為了避免每次從原始數(shù)據(jù)輸出業(yè)務(wù)數(shù)據(jù)表,可以有效地提供能夠直接對(duì)下游業(yè)務(wù)數(shù)據(jù)表做出貢獻(xiàn)的通用臨時(shí)表。明確的數(shù)據(jù)倉(cāng)庫(kù)分層有助于分解復(fù)雜的數(shù)據(jù)-業(yè)務(wù)應(yīng)用程序、分解為多個(gè)階段、每個(gè)層只處理單個(gè)階段的數(shù)據(jù)處理過(guò)程。數(shù)據(jù)分層具體意味著什么?每一層都要注意什么?

生產(chǎn)數(shù)據(jù)層(ODS,操作數(shù)據(jù)存儲(chǔ)區(qū)):最接近數(shù)據(jù)源原始外觀的此級(jí)別數(shù)據(jù),通常在數(shù)據(jù)源直接通過(guò)ETL后存儲(chǔ)在此處。從原始數(shù)據(jù)到ODS層,為了防止原始數(shù)據(jù)受損和產(chǎn)生不必要的故障排除成本,建議不要清理復(fù)雜的數(shù)據(jù)。

僅推薦——萬(wàn)韓元

將Json記錄的日志映射到字段。清理不當(dāng)行為數(shù)據(jù);數(shù)據(jù)轉(zhuǎn)碼:將編碼映射到真正意義上的值數(shù)據(jù)標(biāo)準(zhǔn)化。E.G .以YYY-MM-DD格式格式化所有日期。修改異常值,E.G .視頻播放表: (包括用戶id、視頻id、播音員、播放時(shí)間等)如果表被分為ODS層,則必須確保已清理了原始數(shù)據(jù)中所有有意義的字段。

詳細(xì)數(shù)據(jù)層(DWD、Data Warehouse Detail):對(duì)ODS層執(zhí)行業(yè)務(wù)維的數(shù)據(jù)清理和規(guī)范化操作。E.G .用戶播放視頻的日志級(jí)表

桌子被分成DWD層后,業(yè)務(wù)層面的詳細(xì)數(shù)據(jù)是否清晰明確地記錄下來(lái)?

摘要數(shù)據(jù)層(DWS、Data Warehouse Summary):根據(jù)業(yè)務(wù)需求匯總ODS/DWD層的數(shù)據(jù)。E.G .帶有用戶圖片信息的播放視頻

對(duì)于DWS層表,是否可以有效方便地服務(wù)業(yè)務(wù)方向統(tǒng)計(jì)要求?

應(yīng)用程序數(shù)據(jù)存儲(chǔ)(ADS):業(yè)務(wù)所需的統(tǒng)計(jì)結(jié)果,E.G .每種類(lèi)型用戶的視頻回放統(tǒng)計(jì)數(shù)據(jù)。

如果是ADS分層表,是否可以獲得業(yè)務(wù)所需的統(tǒng)計(jì)數(shù)據(jù)?

維度表格(DIM):儲(chǔ)存基本資訊,例如使用者特性表(性別、年齡等)。

對(duì)于DIM層次表,是否完全記錄后續(xù)分析或統(tǒng)計(jì)所需的每個(gè)維?

除了固定層以外,當(dāng)然還有臨時(shí)票(TEM)。

阿里/華為的數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)分級(jí):操作數(shù)據(jù)層(ODS)、明細(xì)數(shù)據(jù)層(DWD)、匯總數(shù)據(jù)層(DWS)和應(yīng)用數(shù)據(jù)層(ADS),維度表(DIM); 操作數(shù)據(jù)層、明細(xì)數(shù)據(jù)層、匯總數(shù)據(jù)層都是公共數(shù)據(jù)層。

此外,涉及表時(shí),需要充分考慮這張表后續(xù)是哪個(gè)角色的同學(xué)使用,表是否足夠易用?是否內(nèi)容冗余?是否安全?

  • 業(yè)務(wù)線的同學(xué)是否能夠通過(guò)幾條簡(jiǎn)單的SQL語(yǔ)句,拿到數(shù)據(jù)結(jié)果?
  • 可以通過(guò)單張表格統(tǒng)計(jì)到數(shù)據(jù)還是需要多表關(guān)聯(lián)獲取?
  • 單張表是不是內(nèi)容冗余,是否會(huì)影響查詢效率?
  • 多表關(guān)聯(lián)時(shí),是否會(huì)有業(yè)務(wù)理解上的坑,e.g.多表間的字段是一對(duì)一,一對(duì)多,還是多對(duì)多,如何讓使用者清晰的理解?
  • 表中是否涉及敏感的字段,比如金額等,使用群體是否有足夠的權(quán)限獲取這些信息?

2. 元數(shù)據(jù)管理

元數(shù)據(jù)及應(yīng)用也是數(shù)據(jù)倉(cāng)庫(kù)的重要組成部分,它是描述數(shù)據(jù)的數(shù)據(jù)(data about data),描述數(shù)據(jù)的屬性信息,可以幫助我們非常方便地找到他們所關(guān)心的數(shù)據(jù)。

元數(shù)據(jù)記錄了哪些信息?

  • 數(shù)據(jù)的表結(jié)構(gòu):字段信息、分區(qū)信息、索引信息等;
  • 數(shù)據(jù)的使用&權(quán)限:空間存儲(chǔ)、讀寫(xiě)記錄、修改記錄、權(quán)限歸屬、審核記錄等其他信息;
  • 數(shù)據(jù)的血緣關(guān)系信息:血緣信息簡(jiǎn)單的說(shuō)就是數(shù)據(jù)的上下游關(guān)系,數(shù)據(jù)從哪里來(lái)到哪里去?我們通過(guò)血緣關(guān)系,可以了解到建立起生產(chǎn)這些數(shù)據(jù)的任務(wù)之間的依賴(lài)關(guān)系,進(jìn)而輔助調(diào)度系統(tǒng)的工作調(diào)度,或者用來(lái)判斷一個(gè)失敗或錯(cuò)誤的任務(wù)可能對(duì)哪些下游數(shù)據(jù)造成影響等等;而在數(shù)據(jù)排查過(guò)程中也可以幫助我們定位問(wèn)題。
  • 數(shù)據(jù)的業(yè)務(wù)屬性信息:記錄這張表的業(yè)務(wù)用途,各個(gè)字段的具體統(tǒng)計(jì)口徑、業(yè)務(wù)描述、歷史變遷記錄、變遷原因等。
    這部分?jǐn)?shù)據(jù)多是我們手動(dòng)填寫(xiě),但卻能大大提升數(shù)據(jù)使用過(guò)程中的便利性。

3. 離線數(shù)據(jù)倉(cāng)庫(kù)&實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)

此外,根據(jù)數(shù)據(jù)實(shí)時(shí)性,數(shù)據(jù)倉(cāng)庫(kù)可以分為離線數(shù)據(jù)倉(cāng)庫(kù)、實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)。

  • 離線數(shù)據(jù)倉(cāng)庫(kù)主要記錄t-1以上的數(shù)據(jù),以天、周、月數(shù)據(jù)計(jì)算為主;
  • 實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)是隨著人們對(duì)實(shí)時(shí)數(shù)據(jù)展示、分析、算法的需求而出現(xiàn)的。

4. 總結(jié)

數(shù)據(jù)處理過(guò)程是數(shù)據(jù)產(chǎn)品經(jīng)理 產(chǎn)出報(bào)表、分析報(bào)告耗時(shí)最久的部分,了解數(shù)據(jù)倉(cāng)庫(kù)的概念&關(guān)鍵點(diǎn),有助于我們清晰、有效的處理數(shù)據(jù),提高工作效率,將更多的時(shí)間用于業(yè)務(wù)洞察。

相關(guān)數(shù)據(jù)產(chǎn)品文檔:

  1. 埋點(diǎn)技術(shù)
  2. 埋點(diǎn)通用的事件模型

本文由 @ cecil 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來(lái)自 Pexels,基于 CC0 協(xié)議

1.《【dwd022】從數(shù)據(jù)產(chǎn)品經(jīng)理的角度談數(shù)據(jù)處理》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識(shí),僅代表作者本人觀點(diǎn),與本網(wǎng)站無(wú)關(guān),侵刪請(qǐng)聯(lián)系頁(yè)腳下方聯(lián)系方式。

2.《【dwd022】從數(shù)據(jù)產(chǎn)品經(jīng)理的角度談數(shù)據(jù)處理》僅供讀者參考,本網(wǎng)站未對(duì)該內(nèi)容進(jìn)行證實(shí),對(duì)其原創(chuàng)性、真實(shí)性、完整性、及時(shí)性不作任何保證。

3.文章轉(zhuǎn)載時(shí)請(qǐng)保留本站內(nèi)容來(lái)源地址,http://f99ss.com/gl/2482743.html