本文涉及的完整資料PDF已幫你備好,可移步文末獲取
2017年華為提出了企業的新願景:“即把數字世界帶入每個人、每個家庭、每個組織,構建萬物互聯的智慧世界”。同時, 華為公司提出了“實現全聯接的智慧華為,成為行業標杆”的數字化轉型目標。
隨後,華為基於願景確定了數字化轉型的藍圖和框架, 統一規劃、分層次開展,最終實現客戶互動方式的轉變,實現內部運營效率和效益的提升。華為數字化轉型藍圖包括 5項舉措。
其中,舉措4涉及資料治理和數字化運營,是華為數字化轉型的關鍵,承接了打破資料孤島、確保源頭資料準確、促進資料共享、保障資料隱私與安全等目標。華為從 2007 年開始啟動資料治理,歷經兩個階段的持續變革,系統地建立了華為資料管理體系。
第一階段:2007~2016 年
在這一階段,華為設立資料管理專業組織,建立資料管理框架,釋出資料管理政策,任命資料Owner,透過統一資訊架構與標準、唯一可信的資料來源、有效的資料質量度量改進機制,實現了以下目標。
- 持續提升資料質量,減少糾錯成本:透過資料質量度量與持續改進,確保資料真實反映業務,降低運營風險。
- 資料全流程貫通,提升業務運作效率:透過業務數字化、標準化,藉助 IT 技術,實現業務上下游資訊快速傳遞、共享。
第二階段:2017年~至今
在這一階段,華為建設資料底座,匯聚企業全域資料並對資料進行聯接,透過資料服務、資料地圖、資料安全防護與隱私保護,實現了資料隨需共享、敏捷自助、安全透明的目標,支撐著華為數字化轉型,實現瞭如下的資料價值。
- 業務可視,能夠快速、準確決策:透過資料匯聚,實現業務狀態透明可視,提供基於“事實”的決策支援依據。
- 人工智慧,實現業務自動化:透過業務規則數字化、演算法化,嵌入業務流,逐步替代人工判斷。
- 資料創新,成為差異化競爭優勢:基於資料的使用者洞察, 發現新的市場機會點。
01 華為資料分類管理框架(基於特徵分類)
華為根據資料特性及治理方法的不同對資料進行了分類定義:內部資料和外部資料、結構化資料和非結構化資料、元資料。其中,結構化資料又進一步劃分為基礎資料、主資料、事務資料、報告資料、觀測資料和規則資料。華為資料分類管理框架如圖 4 所示。
不同分類的資料,其治理方法有所不同。如基礎資料內容的變更通常會對現有流程、IT 系統產生影響,因此基礎資料的管理重點在於變更管理和統一標準管控。主資料的錯誤可能會導致成百上千的事務資料錯誤,因此主資料的管理重點是確保同源多用、重點進行資料內容的校驗等。
02 結構化資料管理(以統一語言為核心)
結構化資料包括基礎資料、主資料、事務資料、報告資料、觀測資料、規則資料。結構化資料的共同特點是以資訊架構為基礎,建立統一的資料資產目錄、資料標準與模型。下面將重點介紹六類結構化資料的治理方法。
1. 基礎資料治理
基礎資料用於對其他資料進行分類,在業界也稱作參考資料。基礎資料通常是靜態的(如國家、幣種),一般在業務事件發生之前就已經預先定義。它的可選值數量有限,可以用作業務或 IT 的開關和判斷條件。當基礎資料的取值發生變化的時候,通常需要對流程和 IT 系統進行分析和修改,以滿足業務需求。因此, 基礎資料的管理重點在於變更管理和統一標準管控。
基礎資料在支撐場景分流、流程自動化、提升分析質量方面起著關鍵作用,治理基礎資料的價值如下圖所示。
因此,有效地管理基礎資料對企業來說可以產生巨大的收益。華為建立了一個完整的基礎資料管理框架(如下圖所示), 透過明確各方的管理責任、釋出相關的流程和規範以及建立基礎資料管理平臺等來確保基礎資料的有效管理。
2. 主資料治理
主資料是參與業務事件的主體或資源,是具有高業務價值的、跨流程和跨系統重複使用的資料。主資料與基礎資料有一定的相似性,都是在業務事件發生之前預先定義;但又與基礎資料不同,主資料的取值不受限於預先定義的資料範圍,而且主資料的記錄的增加和減少一般不會影響流程和 IT 系統的變化。但是, 主資料的錯誤可能導致成百上千的事務資料錯誤,因此主資料最重要的管理要求是確保同源多用和重點進行資料內容的校驗。華為的主資料管理策略如下圖所示。
華為的主資料範圍包括客戶、產品、供應商、組織、人員主題,每個主資料都有相應的架構、流程及管控組織來負責管理。
鑑於主資料管理的重要性,對於每個重要的主資料,都會發布相應的管理規範,資料管家依據資料質量標準定期進行資料質量的度量與改進。
同時,對於主資料的整合消費按照如下管理框架進行管理。
資料消費層:資料消費層包括所有消費資料的 IT 產品團隊,負責提出資料整合需求和整合介面實施。
主資料服務實施層:負責主資料整合解決方案的落地, 包括資料服務的 IT 實施和資料服務的配置管理。
主資料服務設計層:為需要整合主資料的 IT 產品團隊提供諮詢和方案服務,負責受理主資料整合需求,制定主資料整合解決方案,維護主資料的通用資料模型。
管控層:管控層由資訊架構專家組擔任,負責主資料規則的制定與釋出,以及主資料整合爭議或例外的決策。
3. 事務資料治理
事務資料在業務和流程中產生,是業務事件的記錄,其本身就是業務運作的一部分。事務資料是具有較強時效性的一次性業務事件,通常在事件結束後不再更新。
事務資料會呼叫主資料和基礎資料。以客戶框架合同為例, 核心屬性有 32 個,其中呼叫基礎資料和主資料 24 個,佔 75% ;客戶框架合同本身特有的屬性 8 個,佔 25%。同時,框架合同也引用了機會點的編碼和投標專案的編碼等事務資料的資訊。
因此,事務資料的治理重點就是管理好事務資料對主資料和基礎資料的呼叫,以及事務資料之間的關聯關係,確保上下游資訊傳遞順暢。在事務資料的資訊架構中需明確哪些屬性是引用其他業務物件的,哪些是其自身特有的。對於引用的基礎資料和主資料,要儘可能呼叫而不是重新建立。
4. 報告資料治理
報告資料是指對資料進行處理加工後,用作業務決策依據的資料。它用於支援報告和報表的生成。
用於報告和報表的資料可以分為如下幾種:
用於報表項資料生成的事實表、指標資料、維度。
用於報表項統計和計算的統計函式、趨勢函式及報告規則。
用於報表和報告展示的序列關係資料。
用於報表項描述的主資料、基礎資料、事務資料、觀測資料。
用於對報告進行補充說明的非結構化資料。
報告資料涵蓋的範圍較廣,如主資料、基礎資料等,這些資料類別本身已經有相應的管理機制和規範,這裡我們重點對部分新的細分資料型別進行說明。
事實表:從業務活動或者事件中提煉出來的效能度量。其特點為:
每個事實表由顆粒度屬性、維度屬性、事務描述屬性、度量屬性組成;
事實表可以分為基於明細構建的事實表和基於明細做過匯聚的事實表。
維度:用於觀察和分析業務資料的視角,支援對資料進行匯聚、鑽取、切片分析。其特點為:
維度的資料一般來源於基礎資料和主資料;
維度的資料一般用於分析視角的分類;
維度的資料一般有層級關係,可以向下鑽取和向上聚合形成新的維度。
統計型函式:與指標高度相關,是對指標數量特徵進一步的數學統計,例如均值、中位數、總和、方差等。其特點為:
通常反映某一維度下指標的聚合情況、離散情況等特徵;
其計算數值在報告中通常呈現為圖表中的參考線。
趨勢型函式:反映指標在時間維度上變化情況的統計方式,例如同比、環比、定基比等。其特點為:
通常將當期值與歷史某時點值進行比較;
呼叫時,需要收集指標的歷史表現資料;
其計算數值在報告中通常呈現為圖表中的趨勢線。
報告規則資料:一種描述業務決策或過程的陳述,通常是基於某些約束下產生的結論或需要採取的某種措施。其特點為:
將業務邏輯透過函式運算體現,通常一個規則包含多個運算和判斷條件;
規則的計算結果一般不直接輸出,需要基於計算結果翻譯成業務語言後輸出;
規則通常與引數表密切相關。
序列關係資料:反映報告中指標及其他資料序列關係的資料。
5. 觀測資料治理
觀測資料是透過觀測工具獲取的資料,觀測物件一般為人、事、物、環境。
相比傳統資料,觀測資料通常資料量較大且是過程性的,由機器自動採集生成。不同感知方式獲取的觀測資料,其資料資產管理要素不同。
觀測資料的感知方式可分為軟感知和硬感知。軟感知是使用軟體或者各種技術進行資料收集,收集的物件存在於數字世界, 通常不依賴於物理裝置,一般是自動執行的程式或指令碼;硬感知是利用裝置或裝置進行資料收集,收集的物件為物理世界中的物理實體,或者是以物理實體為載體的資訊,其資料的感知過程是資料從物理世界向數字世界的轉化過程。
觀測資料的特徵有如下幾點:觀測資料通常資料量較大且是過程性的,主要用作監控分析。例如,影片監控器產生的影片資料、作業系統產生的日誌記錄資料等。
觀測工具的元資料可以作為資料資產管理:軟感知(埋點、日誌收集、爬蟲)觀測工具抽象成業務物件,由 IT 部門擔任資料 Owner 進行統一管理;硬感知觀測工具作為資源類資料,也建議作為業務物件由相應的領域擔任資料 Owner 進行管理。
原則上,觀測物件要定義成業務物件進行管理,這是觀測資料管理的前提條件。
觀測資料需要記錄觀測工具、觀測物件。針對不同感知方式獲取的觀測資料,其資產管理方案也不盡相同。例如,以使用者介面瀏覽記錄為例,如果是對銷售機會點的查詢訪問觀測,應當歸屬到相應業務領域;如果是對頁面效能、頁面 UV、PV 的觀測, 應當歸屬到 IT 部門。
6. 規則資料治理
在業務規則管理方面,華為經常面對“各種業務場景業務規則不同,記不住,找不到”“大量規則在政策、流程等檔案中承載,難以遵守”“各國規則均不同,IT 能否一國一策、快速上線”等問題。
規則資料是結構化描述業務規則變數(一般為決策表、關聯關係表、評分卡等形式)的資料,是實現業務規則的核心資料, 如業務中普遍存在的基線資料。
規則資料主要有以下特徵:
規則資料不可例項化;
規則資料包含判斷條件和決策結果兩部分資訊,區別於描述事物分類資訊的基礎資料;
規則資料的結構在縱向(列)、橫向(行)兩個維度上相對穩定,變化形式多為內容重新整理;
規則資料的變更對業務活動的影響是大範圍的。
其基本原則為:
規則資料的管理是為了支撐業務規則的結構化、資訊化、數字化,目標是實現規則的可配置、視覺化、可追溯。
不同於標準化的資訊架構管理,規則資料的管理具有輕量化、分級的特點。重要的、呼叫量大、變動頻繁的業務規則需要透過規則資料管理,使其從程式碼中解耦,進行資產註冊;使用廣泛的、有分析需求的規則資料需要透過註冊入湖,實現共享和複用。
業務規則在架構層次上與流程中的業務活動相關聯,是業務活動的指導和依據,業務活動的結果透過該業務活動的相關業務物件的屬性來記錄。業務規則透過業務活動對業務事實、業務行為進行限制,業務人員可以根據業務規則判斷業務情況,採取具體行動。
業務規則包含規則變數和變數之間的關係,規則資料主要描述規則的變數部分,是支撐業務規則的核心資料(如下圖所示)。
此外,執行規則所需要的輸入資料、輸出資料,包括動態資料庫訪問物件、記憶體表快取、Excel、XML 處理類等,主要起支撐作用,不在規則資料的範疇。
規則資料必須有唯一的資料 Owner,其負責開展規則資料的資訊架構建設與維護、資料質量的監控與保障、資料服務建設、資料安全授權與定密等工作。相應的資料管家支援資料 Owner 對所管轄的業務中的規則資料進行治理,包括建設和維護資訊架構、確保架構落地遵從、例行監控資料質量等。
規則資料的元資料要記錄與業務規則的關係(規則資料定義前應先完成業務規則的識別和定義)。一個業務規則可以包含零個、一個或多個規則資料,一個規則資料在資訊架構上對應一個邏輯資料實體,在物理實現上一般對應一個物理表。規則資料要遵從資訊架構資產管理要求(包括明確規則資料的 Owner、制定資料標準、明確資料來源等),按照資訊保安要求定密,以方便規則資料的管理、共享和分析。
03 非結構化資料管理(以特徵提取為核心)
隨著業務對大資料分析的需求日益增長,非結構化資料的管理逐漸成為資料管理的重要組成部分。非結構化資料包括無格式文字、各類格式文件、影象、音訊、影片等多種異構的格式檔案, 較之結構化資料,其更難標準化和理解,因此在儲存、檢索以及消費使用時需要智慧化的 IT 技術與之匹配。華為的非結構化資料包括文件(郵件、Excel、Word、PPT)、圖片、音訊、影片等。
相較於結構化資料,非結構化元資料管理除了需要管理檔案物件的標題、格式、Owner 等基本特徵和定義外,還需對資料內容的客觀理解進行管理,如標籤、相似性檢索、相似性連線等, 以便於使用者搜尋和消費使用。因此,非結構化資料的治理核心是對其基本特徵與內容進行提取,並透過元資料落地來開展的。非結構化資料的管理模型如下圖所示。
非結構化資料的元資料可以分為基本特徵類(客觀)和內容增強類(主觀)兩類。
基本特徵類:參考都柏林十五個核心元資料,實現對非結構化資料物件的規範化定義,如標題、格式、來源等。
內容增強類:基於非結構化資料內容的上下文語境,解析目標檔案物件的資料內容,加深對目標物件的客觀理解,如標籤、相似性檢索、相似性連線等。
非結構化資料的元資料管理採用統分統管的原則,即基本特徵類屬性由公司進行統一管理,內容增強類屬性由相關承擔資料分析工作的專案組自行設計,但其分析結果都應由公司元資料管理平臺自動採集後進行統一儲存。
元資料管理平臺透過“基本特徵類元資料流”和“內容增強類元資料流”兩條線來實現對非結構化資料的元資料管理和消費使用。
1. 基本特徵類元資料流
元資料管理平臺基於收集到的各類非結構化資料來源資訊,自動完成基礎特徵類元資料的採集工作,按照管理規範和要求透過標準化、整合後儲存在元資料管理平臺中,並在完成元資料過濾、排序後將結果在元資料報告中進行視覺化展示,以供使用者消費使用。
2. 內容增強類元資料流
基於元資料管理平臺中基本特徵類元資料的資訊,各資料分析專案組解析目標非結構化物件的資料內容,並將分析結果透過元資料採集、元資料標準化 & 整合後統一存放在元資料管理平臺中,以供使用者一併消費使用,增強使用者體驗。
04 外部資料管理(以確保合規遵從為核心)
外部資料是指華為公司引入的外部組織或者個人擁有處置權利的資料,如供應商資質證明、消費者洞察報告等。外部資料治理的出發點是合規遵從優先,與內部資料治理的目的不同。
外部資料的治理主要遵循以下原則。
合規優先原則:遵從法律法規、採購合同、客戶授權、公司資訊保安與公司隱私保護政策等相關規定。
責任明確原則:所有引入的外部資料都要有明確的管理責任主體,承擔資料引入方式、資料安全要求、資料隱私要求、資料共享範圍、資料使用授權、資料質量監管、資料退出銷燬等責任。
有效流動原則:使用方優先使用公司已有資料資產,避免重複採購、重複建設。
可審計、可追溯原則:控制訪問許可權,留存訪問日誌, 做到外部資料使用有記錄、可審計、可追溯。
受控審批原則:在授權範圍內,外部資料管理責任主體應合理審批使用方的資料獲取要求。
在以上原則指導下,我們要求所有采購的外部資料要註冊, 在合規的前提下鼓勵資料共享,避免重複採購。其他方式引入的外部資料,由管理責任主體決定登記方式。根據法律條款和授權範圍,外部資料管理責任主體有權決定外部資料是否入資料湖, 如果需要入資料湖,必須遵從資料湖建設相應的流程和規範。同時,外部資料管理責任主體有義務告知使用方合規使用外部資料, 對於不合規的使用場景,不予授權;資料使用方要遵從外部資料管理責任主體的要求,對不遵從要求所引起的後果承擔責任。
05 元資料管理(作用於資料價值流)
無論結構化資料,還是非結構化資料,或者外部資料,最終都會透過元資料治理落地。華為將元資料治理貫穿整個資料價值流,覆蓋從資料產生、匯聚、加工到消費的全生命週期。
1. 元資料治理的痛點與挑戰
華為在進行元資料治理以前,遇到的元資料問題主要表現為資料找不到、讀不懂、不可信,資料分析師們往往會陷入資料沼澤中。元資料管理的痛點如圖 12 所示。
圖 12 元資料管理痛點
為解決以上痛點,華為建立了公司級的元資料管理機制。制定了統一的元資料管理方法、機制和平臺,拉通業務語言和機器語言。確保資料“入湖有依據,出湖可檢索”成為華為元資料管理的使命與目標。基於高質量的元資料,透過資料地圖就能在企業內部實現方便的資料搜尋。
元資料是描述資料的資料,用於打破業務和 IT 之間的語言障礙,幫助業務更好地理解資料。元資料通常分為業務、技術和操作三類。
業務元資料:使用者訪問資料時瞭解業務含義的途徑,包括資產目錄、Owner、資料密級等。
技術元資料:實施人員開發系統時使用的資料,包括物理模型的表與欄位、ETL 規則、整合關係等。
操作元資料:資料處理日誌及運營情況資料,包括排程頻度、訪問記錄等。
在企業的數字化運營中,元資料作用於整個價值流,在從資料來源到資料消費的五個環節中都能充分體現元資料管理的價值。
資料消費側:元資料能支援企業指標、報表的動態構建。
資料服務側:元資料支援資料服務的統一管理和運營, 並實現利用元資料驅動 IT 敏捷開發。
資料主題側:元資料統一管理分析模型,敏捷響應井噴式增長的資料分析需求,支援資料增值、資料變現。
資料湖側:元資料能實現暗資料的透明化,增強資料活性,並能解決資料治理與 IT 落地脫節的問題。
資料來源側:元資料支撐業務管理規則有效落地,保障資料內容合格、合規。
2. 元資料管理架構及策略
元資料管理架構包括產生元資料、採集元資料、註冊元資料和運維元資料。
產生元資料:制定元資料管理相關流程與規範的落地方案,在 IT 產品開發過程中實現業務元資料與技術元資料的連線。
採集元資料:透過統一的元模型從各類 IT 系統中自動採集元資料。
註冊元資料:基於增量與存量兩種場景,制定元資料註冊方法,完成底座元資料註冊工作。
運維元資料:打造公司元資料中心,管理元資料產生、採集、註冊的全過程,實現元資料運維。
元資料管理方案:透過制定元資料標準、規範、平臺與管控機制,建立企業級元資料管理體系,並推動其在公司各領域落地,支撐資料底座建設與數字化運營。
華為經過多年實踐,已經建立了相對完整的資料分類管理框架,為資料治理奠定了基礎。隨著數字化轉型的深入開展,尤其是面向未來海量的非結構化資料、IoT 場景的觀測資料、外部合規日趨嚴格的外部資料等,華為將不斷豐富每一類資料的治理實踐。
華為建立完善的“資料管理體系”:明確資料管理的政策、流程、組織、IT等元件,並透過完整的資料管理體系的運作,不斷促進業務規則和流程的最佳化,支撐資料打通和資料清潔目標的實現。同時健全了公司資料管理組織:各領域/BG分別建立了實體化的資料管理組織(專業的資料管家),虛線向公司資料管理部彙報;同時組建6個跨領域資料聯合工作團隊。
華為資料管理政策是資料管理的“基本法”,從目的、適用範圍、管理原則、問責等方面進行規定,是公司層面需要遵從的檔案。
華為數字化資料管理框架:以業務數字化為前提,資料入湖為基礎,重點建設資料中臺;同時加強資料隱私與安全、血緣、虛擬化和生態能力建設。
福利
私信回覆“華為”,獲取完整版華為數字化轉型與資料管理實踐PDF資料