在本文開始之前,先解答一個常見疑問,即數(shù)據(jù)治理與數(shù)據(jù)管理的關系。雖然當前數(shù)據(jù)治理的詞頻熱度高于數(shù)據(jù)管理,但數(shù)據(jù)治理只是數(shù)據(jù)管理的一部分。
數(shù)據(jù)治理VS數(shù)據(jù)管理
不管是軟件能力成熟度模型集成協(xié)會(CMMI)發(fā)布的數(shù)據(jù)管理成熟度模型(DMM),還是數(shù)據(jù)管理協(xié)會(DAMA)發(fā)布的數(shù)據(jù)管理知識體系(DMBOK),都有相關說明,比如DMM明確了數(shù)據(jù)管理工作體系框架,包括數(shù)據(jù)戰(zhàn)略、數(shù)據(jù)質(zhì)量、數(shù)據(jù)運營、平臺和架構、數(shù)據(jù)治理等5大核心域。
雖如此,但數(shù)據(jù)治理是數(shù)據(jù)管理不可或缺的重要組成部分。數(shù)據(jù)治理強調(diào)如何讓數(shù)據(jù)資產(chǎn)長期、可持續(xù)的發(fā)揮價值,因此需要明確職責、流程、權限角色、規(guī)范、標準等。
而數(shù)據(jù)管理范圍更廣,強調(diào)通過人員、流程、技術等方面的協(xié)同實現(xiàn)公司層面的數(shù)據(jù)共享并充分發(fā)揮數(shù)據(jù)價值,數(shù)據(jù)管理貫穿數(shù)據(jù)生成、存儲、使用、共享、歸檔、銷毀的全生命周期。不同類型的數(shù)據(jù)比如元數(shù)據(jù)、主數(shù)據(jù)等都需要數(shù)據(jù)治理。
數(shù)據(jù)分類與主數(shù)據(jù)概念
在理解主數(shù)據(jù)、解決數(shù)據(jù)問題之前,首先,我們要明確到底有哪些數(shù)據(jù)或哪幾類數(shù)據(jù)?當然,數(shù)據(jù)按照不同維度、不同語境可以分為不同的類,比如結構化和非結構化化、交易和非交易數(shù)據(jù)、行業(yè)數(shù)據(jù)和公司數(shù)據(jù)等。從數(shù)據(jù)治理或信息化項目的角度,數(shù)據(jù)一般分為:數(shù)據(jù)元、元數(shù)據(jù)、主數(shù)據(jù)、參考數(shù)據(jù)、常規(guī)數(shù)據(jù)等。
數(shù)據(jù)(data),根據(jù)《信息技術數(shù)據(jù)元的規(guī)范和標準化》(GB/T18391.1-2002),數(shù)據(jù)是指對事實、概念或指令的一種形式化標示,適用于以人工或自動方式進行通信、解釋和處理。
數(shù)據(jù)元(data element),指用一組屬性描述定義、標識、表示和允許值的數(shù)據(jù)單元。在特定的語境中,可以認為是不可再分的最小數(shù)據(jù)單元,也可以直觀理解為數(shù)據(jù)庫表的列,對象、特征、表達是數(shù)據(jù)元的三要素,比如“今天股市收盤是2500點”數(shù)據(jù)元,其中“今天股市”就是對象,“收盤”是特性,“2500”是表達。
元數(shù)據(jù)(MetaData),指描述數(shù)據(jù)的數(shù)據(jù),也指幫助查找、存取、使用和管理信息資源的信息。為便于理解元數(shù)據(jù)和數(shù)據(jù)元,作者舉個例子,比如我們要向中證金融報送兩融數(shù)據(jù),數(shù)據(jù)報送接口規(guī)范中有許多表,每個表有許多列,每個列有填報要求比如類型、是否為空。每個填報字段可以認為是數(shù)據(jù)元,而每個填報字段的填報要求可以認為是該字段的元數(shù)據(jù),而每個字段可以認為是該表的元數(shù)據(jù)。也即數(shù)據(jù)元和元數(shù)據(jù)本身也是數(shù)據(jù),在不同的上下文有不同的定義和理解,本身都是個相對的概念,意識到這點才能很好理解兩者的關系?,F(xiàn)實中,元數(shù)據(jù)常見用于描述數(shù)據(jù)庫中所有數(shù)據(jù)的語境,而數(shù)據(jù)元通常用在行業(yè)標準制定。
參考數(shù)據(jù)(reference data),指數(shù)據(jù)可能的取值范圍及其解釋,也即我們常說的數(shù)據(jù)字典。數(shù)據(jù)字典雖然很好理解,但行業(yè)現(xiàn)實中,由于每個系統(tǒng)有不同的數(shù)據(jù)字典,甚至同一系統(tǒng)內(nèi)也有不同數(shù)據(jù)字典,而且沒有統(tǒng)一標準,間接造就了大量的數(shù)據(jù)孤島,也需要加強治理。
常規(guī)數(shù)據(jù)(作者自己定義),是與每日業(yè)務開展或每個業(yè)務人員最為關注的那些數(shù)據(jù),比如交易、審計、采購訂單、銷售訂單、報表等等數(shù)據(jù)。
主數(shù)據(jù)(master data),通常是不隨或很少隨時間變化的靜態(tài)數(shù)據(jù),并且與個體活動或流程無關,比如客戶、證券標的、金融產(chǎn)品、會計科目等信息,這些信息構成了公司的業(yè)務。主數(shù)據(jù)掌控交易數(shù)據(jù)如何被處理并決定著決策的精準度。主數(shù)據(jù)管理,本質(zhì)上是各業(yè)務人員利用IT工具進行協(xié)作,來協(xié)調(diào)、清理、發(fā)布和保護企業(yè)需要共享的數(shù)據(jù)資產(chǎn),保證企業(yè)核心信息的一致、準確和安全。主數(shù)據(jù)也是大數(shù)據(jù)建設中的重點內(nèi)容。
為便于大家只管理解四類數(shù)據(jù)區(qū)別,作者畫了一個見圖如下:
元數(shù)據(jù)和參考數(shù)據(jù)一般與系統(tǒng)或數(shù)據(jù)庫底層設計有關,相對變化頻率非常低;而主數(shù)據(jù)與技術有關,與業(yè)務關系更為密切,相對變化頻率較低,也是常規(guī)數(shù)據(jù)的基礎;而常規(guī)數(shù)據(jù)則變化頻繁,只要展業(yè)基本都會累加,且實時性要求較高?;谝陨戏诸惡头治觯髡哒J為,由于主數(shù)據(jù)與業(yè)務聯(lián)系緊密且是一般數(shù)據(jù)基礎,加上又有一定變化(頻率很低),數(shù)據(jù)治理的重點領域是上述四類數(shù)據(jù)中的主數(shù)據(jù),這應該也是SAP、ORACLE等國際巨頭反復打磨并推出主數(shù)據(jù)管理解決方案的原因。
主數(shù)據(jù)管理的難點
主數(shù)據(jù)管理意義非凡,但是在實踐和實施方面還是存在很多的難點,突出表現(xiàn)在以下幾個方面:
1)認知不統(tǒng)一,不重視主數(shù)據(jù)的總體規(guī)劃,缺乏頂層設計,無法在單位決策層、管理層和業(yè)務層等各層級統(tǒng)一思路。
2)各職能部門各自為政,難以在標準和規(guī)則層面達成一致,致使主數(shù)據(jù)代碼標準難統(tǒng)一。
3)通用標準主數(shù)據(jù)(國際標準、國家標準和行業(yè)標準產(chǎn)生的主數(shù)據(jù))管理分散,缺乏便捷可靠的數(shù)據(jù)獲取渠道,數(shù)據(jù)獲取困難。
4)單位內(nèi)部已經(jīng)存在且分散管理的主數(shù)據(jù),由于缺乏統(tǒng)一標準和數(shù)據(jù)關聯(lián),大量的數(shù)據(jù)清洗依靠人為判斷,數(shù)據(jù)清洗難度和風險都很大。
5)企業(yè)歷史系統(tǒng)和歷史數(shù)據(jù)的數(shù)據(jù)標準化程度不高,數(shù)據(jù)清洗難,改造成本高,給主數(shù)據(jù)系統(tǒng)集成造成較大困難。主數(shù)據(jù)管理進程需要修改現(xiàn)有的相關生產(chǎn)業(yè)務過程和系統(tǒng),需要從管理學的角度充分調(diào)動業(yè)務部門密切配合,對組織的業(yè)務運營效率和信息決策周期要求較高。
6)主數(shù)據(jù)管理模式要求業(yè)務間有表單數(shù)據(jù)交換,因此短期內(nèi)會使得信息架構發(fā)生變化,甚至變得更加復雜。
主數(shù)據(jù)管理實施方法
主數(shù)據(jù)實施要點主要包含主數(shù)據(jù)規(guī)劃、制定主數(shù)據(jù)標準、建立主數(shù)據(jù)代碼庫、搭建主數(shù)據(jù)管理工具、構建運維體系及推廣貫標六大部分,其中主數(shù)據(jù)規(guī)劃是綱領、制定主數(shù)據(jù)標準是基礎、建立主數(shù)據(jù)主數(shù)據(jù)代碼庫是過程、搭建主數(shù)據(jù)管理工具是技術手段、構建運維體系是前提,推廣貫標是持續(xù)保障。
主數(shù)據(jù)規(guī)劃:運用方法論并結合企業(yè)實際情況,制定主數(shù)據(jù)整實施路線圖。
主數(shù)據(jù)規(guī)劃強調(diào)將需求分析與系統(tǒng)建模緊密結合,需求分析是系統(tǒng)建模的基礎,而業(yè)務調(diào)研又是需求分析的前提。
在主數(shù)據(jù)規(guī)劃咨詢的過程中需要參照標準,主要參照的標準有國際標準、國家標準、行業(yè)標準、企業(yè)標準,確保企業(yè)的主數(shù)據(jù)規(guī)劃咨詢后能夠既符合國家相關規(guī)定,又具備企業(yè)行業(yè)特色。
通過現(xiàn)狀調(diào)研和需求分析等前期工作輸出主數(shù)據(jù)規(guī)劃成果,該成果主要包括主數(shù)據(jù)標準化體系架構、主數(shù)據(jù)集成架構、主數(shù)據(jù)安全架構(數(shù)據(jù)脫敏、數(shù)據(jù)權限)以及運營管理架構(組織、制度、流程、管理規(guī)范、質(zhì)量管理措施等)等內(nèi)容,此外主數(shù)據(jù)規(guī)劃階段的關鍵活動是對成果、體系的宣貫,通過宣貫讓企業(yè)的各級管理人員及員工及時掌握相應的標準、規(guī)范,確保整個體系的梳理運行。
制定主數(shù)據(jù)標準:確定數(shù)據(jù)范圍,與業(yè)務部門共同制定主數(shù)據(jù)標準, 標準內(nèi)容包括確定分類規(guī)范、編碼結構、數(shù)據(jù)模型、屬性描述等。
制定主數(shù)據(jù)標準是建立主數(shù)據(jù)代碼庫的基礎工作,保障主數(shù)據(jù)管理工具開發(fā)運維以實現(xiàn)系統(tǒng)之間數(shù)據(jù)共享的前提,也是主數(shù)據(jù)管理組織及流程順利開展的關鍵階段。制定主數(shù)據(jù)標準一般遵循簡單性、唯一性、可擴展性等相關原則,既要方便當前應用系統(tǒng)的需求,又要考慮未來信息系統(tǒng)發(fā)展的需求,此外,制定主數(shù)據(jù)標準還要根據(jù)業(yè)務需求的緊急程度分期建設。
主數(shù)據(jù)制定的過程參考:
1)在理解企業(yè)信息化整體規(guī)劃的基礎上,開展主數(shù)據(jù)標準現(xiàn)狀調(diào)研,梳理相關業(yè)務流程。
2)選取組織架構、業(yè)務范圍等類似的優(yōu)秀企業(yè)作為標桿進行對比分析,歸納核心管理領域和業(yè)務領域的主數(shù)據(jù)管理需求,確定數(shù)據(jù)范圍和組織范圍。
3)要根據(jù)各類主數(shù)據(jù)的特點并結合企業(yè)實際情況,與相關業(yè)務部門共同討論制定滿足企業(yè)應用需求的主數(shù)據(jù)標準,標準內(nèi)容主要包括分類規(guī)范、編碼結構、主數(shù)據(jù)模型、描述模板、屬性取值等。
業(yè)務標準的分類是基礎,科學合理的分類是制定標準成功的保障,描述標準是數(shù)據(jù)信息在標準化系統(tǒng)校對的主要依據(jù),其信息的描述是由各信息的屬性字段連接而成,可針對數(shù)據(jù)分類建立標準化的描述模板,有效避免一物多名現(xiàn)象。
建立主數(shù)據(jù)代碼庫:按照主數(shù)據(jù)標準進行數(shù)據(jù)檢查、數(shù)據(jù)排重、數(shù)據(jù)編碼、數(shù)據(jù)加載等,建立符合數(shù)據(jù)標準和規(guī)范的主數(shù)據(jù)代碼庫。
建立主數(shù)據(jù)代碼庫的制定方法可參考以下步驟,第一,確定代碼結構;第二,調(diào)研、收集各類代碼標準;第三,分析、優(yōu)選各類代碼標準并提出規(guī)劃制定建議;第四,編制規(guī)則征求意見;第五;征求部門意見以完善和確認規(guī)則;最后,提交規(guī)則送審稿。
搭建主數(shù)據(jù)管理工具:建設主數(shù)據(jù)管理工具,為主數(shù)據(jù)的管理提供技術支持,實現(xiàn)主數(shù)據(jù)查詢、申請、修改、審核、發(fā)布、凍結、歸檔等全生命周期管理。
構建運維體系:建立主數(shù)據(jù)管理和標準管理的運維組織、管理流程、考核機制等,保證主數(shù)據(jù)標準規(guī)范得到有效執(zhí)行。
推廣貫標:統(tǒng)一執(zhí)行主數(shù)據(jù)標準規(guī)范,擴大主數(shù)據(jù)標準的應用范圍,實現(xiàn)信息系統(tǒng)間的互聯(lián)互通及共享利用。
主數(shù)據(jù)管理工具
主數(shù)據(jù)管理工具是主數(shù)據(jù)標準文本發(fā)布、主數(shù)據(jù)全生命周期管理的重要平臺。主數(shù)據(jù)標準的維護流程和管理措施通過管理平臺進行系統(tǒng)實現(xiàn)和控制,以保證標準的唯一性和宣貫的及時性。
主數(shù)據(jù)管理工具主要包括數(shù)據(jù)建模、數(shù)據(jù)整合、數(shù)據(jù)管理、數(shù)據(jù)服務基礎管理、標準管理等功能模塊。
1)主數(shù)據(jù)建模:主要以主數(shù)據(jù)標準體系為基準,通過可視化建模工具,定義主數(shù)據(jù)對象、編碼規(guī)則、屬性值和控制流程等基礎要素,構建主數(shù)據(jù)標準模型。
2)主數(shù)據(jù)整合:主要利用數(shù)據(jù)清洗工具及擴展功能,將各系統(tǒng)生成的主數(shù)據(jù)進行匯集、依據(jù)主數(shù)據(jù)標準和主數(shù)據(jù)模型定義的規(guī)則進行校驗、清洗、發(fā)布,實現(xiàn)對主數(shù)據(jù)的全生命周期管理,并整合出統(tǒng)一的、可信任的主數(shù)據(jù)。
3)主數(shù)據(jù)管理:按照標準主數(shù)據(jù)管理規(guī)程的要求,通過嚴格的管理流程,實現(xiàn)主數(shù)據(jù)創(chuàng)建、審批、發(fā)布、修改、凍結和失效等全生命周期管理以及數(shù)據(jù)字典的管理維護,確保數(shù)據(jù)的一致性、準確性、實時性和權威性。
4)主數(shù)據(jù)存儲和服務:主數(shù)據(jù)平臺發(fā)布的基準數(shù)據(jù),集中存儲于主數(shù)據(jù)基準庫,提供在線查詢和訂閱功能,并通過流程驅(qū)動和消息驅(qū)動的標準接口提供數(shù)據(jù)共享服務。
5)標準文件資料管理:利用外部公共文檔管理系統(tǒng)或內(nèi)置管理功能,實現(xiàn)標準文件和相關資料的存儲管理、版本管理和標準目錄管理,配置智能化搜索引擎,實現(xiàn)智能、快捷、精確高效的查詢檢索功能。
6)基礎管理:主要實現(xiàn)對系統(tǒng)中的基礎數(shù)據(jù)進行設置,配置靈活、安全可靠的權限管理及日志管理,包括用戶、用戶組、角色、資源、流程配置等,以及對各類主數(shù)據(jù)的進行統(tǒng)計分析,為主數(shù)據(jù)應用評價提供有力支撐。
主數(shù)據(jù)管理的建議
1、組織架構
如果說數(shù)據(jù)治理不是技術部門或某一個部門的職責,那么主數(shù)據(jù)管理更是如此。通過在公司層面成立數(shù)據(jù)治理小組或機構,比如內(nèi)嵌在IT治理委員會之中,明確不同部門的主數(shù)據(jù)管理工作職責,形成主數(shù)據(jù)管理敏捷團隊;建立統(tǒng)一的主數(shù)據(jù)管理使用規(guī)范,合法利用外部數(shù)據(jù)。
2、建章立制
建立覆蓋主數(shù)據(jù)全生命周期的制度和流程,比如《主數(shù)據(jù)管理流程》《主數(shù)據(jù)管理辦法》《數(shù)據(jù)治理制度》等;明確主數(shù)據(jù)管理相關的清晰角色和職責,建立KPI考核機制。
3、立即行動
主數(shù)據(jù)管理和經(jīng)營機構大小無關,且機構越大,主數(shù)據(jù)管理補起課來,越費力。當然,也不能指望監(jiān)管機構先出臺行業(yè)標準或指南,而公司、集團、各個部門在一開始就意識到主數(shù)據(jù)管理的重要性。需要強調(diào)的是,主數(shù)據(jù)治理與業(yè)務關系密切,需要所有業(yè)務部門人員參與。
4、系統(tǒng)管理
即便是同一行業(yè),不同公司對主數(shù)據(jù)的定義也不可能完全一樣,主數(shù)據(jù)的實際范圍需要結合公司實際應用和需要來商定。如果主數(shù)據(jù)管理工作較重或主數(shù)據(jù)管理已經(jīng)很精細化,則有必要借助平臺或系統(tǒng)來完成主數(shù)據(jù)的申請、確認、審批、發(fā)布等流程。
(本文部分文字內(nèi)容來源金融科技之道和清水釣翁)
本文轉自:數(shù)據(jù)學堂
免責聲明:本文系網(wǎng)絡轉載,版權歸原作者所有。本文所用圖片、文字如涉及作品版權問題,請聯(lián)系刪除!
版權聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權/違法違規(guī)的內(nèi)容, 請發(fā)送郵件至 舉報,一經(jīng)查實,本站將立刻刪除。