<dd id="hdqw2"></dd>

  • <big id="hdqw2"><strong id="hdqw2"></strong></big>

      1. 數據治理:90%的人搞不清的事情

        2020-12-03 10:12:31 達美盛 12

        我們生活中,因“一字之差”而引起的誤會、誤解、笑話、甚至風波卻時有發生。有的“一字之差”是粗心、疏忽導致,有的“一字之差”是對名詞不理解或沒理解透的濫用導致。

        數據治理領域中,也有一些概念、名詞術語,常常讓人感到頭痛:“水果蛋糕”和“水果味蛋糕”傻傻分不清!

        下面談一談我的一些理解。

        數據治理、數據管理、數據管控

        數據治理、數據管理、數據管控這三個名詞在一定程度上的確是有所重疊的,容易混為一談,所以就造成了在實際使用中,經常將這三個詞語“混著用”“隨機用”的現象。有關數據治理、數據管理區別的討論有很多,有人認為數據治理是包含在數據管理中的,數據管理的范圍要更廣,例如:在DAMA-DMBOK中就明確提出數據管理包含數據治理;也有人認為數據治理要高于數據管理,是企業頂層上的策略。

        筆者認為以上兩個觀點都沒有錯,如果要用一個模型來描述數據治理、數據管理、數據管控這三個名詞,那應該是一個“金字塔”模型。
        1.jpg

        最頂層的應該是數據治理。與“治理”相關,我們還會經常看到、聽到國家治理、公司治理的概念,從某種意義上講,治理是一種自頂向下的策略或活動。如果我們將國家治理說成國家管理,把公司治理說成公司管控是不是有點怪怪的?

        因此,數據治理應該是企業頂層設計、戰略規劃方面的內容,是數據管理活動的總綱和指導,指明數據管理過程中哪些決策要被制定,以及由“誰”來負責,更強調組織模式、職責分工和標準規范。

        數據管理是為實現數據和信息資產價值的獲取、控制、保護、交付以及提升,對政策、實踐和項目所做的計劃執行和監督。這個是DAMA-DMBOK中關于數據管理的定義。筆者理解數據管理是實現數據治理提出的決策并給予反饋,強調管理流程和制度,涵蓋不同的管理領域,諸如:元數據管理、主數據管理、數據標準管理、數據質量管理、數據安全管理、數據認責管理、數據服務管理等。

        數據管控更多的是執行層面,是具體的如何落地執行所涉及的各種措施,例如:數據建模、數據抽取、數據處理、數據加工、數據分析等,數據管控是確保數據被管理和監控,從而讓數據得到更好的利用。

        因此,數據治理強調頂層的策略,管理是側重于流程和機制,管控是具體的措施和手段,三者應該是相輔相成的。而如今我們聽到的更多的“數據治理”這個詞,似乎只要涉及數據管理的,都在說自己在搞數據治理。出現這個問題,主要是企業越來越意識到傳統IT驅動或者說技術驅動的專項數據管理項目,在實施過程中很難推進、困難重重,并且很難解決業務和管理上的用數難的問題。而從戰略、組織入手的數據治理頂層設計,更有利于推動數據管理目標的實現。
        元數據、數據元、數據源、源數據
        元數據、數據元、數據源、源數據,這幾個意思毫不相干卻都帶著一個“yuan”的詞語,讓很多初學者抓狂。
        先說數據元,數據元用一組屬性描述定義、標識、表示和允許值的數據單元,由三部分組成:對象、特性、表示。它是組成實體數據的最小單元,或稱原子數據、數據元素,例如,客戶聯系人方式中的聯系人姓名就可以理解為一個數據元素,姓名為數據元的對象,“張三”為數據元的值。
        元數據(MateData),官方定義是描述數據的數據,讓數據更容易理解、查找、管理和使用。從分類上,元數據分為了業務元數據、技術元數據、管理元數據。業務元數據,例如:數據的定義、業務規則、質量規則等;技術元數據:數據表、字段長度,字段編碼、字段類型等;管理元數據:數據的存儲位置、管理人員、更新時間、更新頻率等。
        • 數據是物料,而元數據是倉庫里的物料卡片;

        • 數據是文件夾,而元數據是夾子上的標簽;

        • 數據是書,元數據是圖書館中的圖書卡

        數據源(Data Source),顧名思義就是數據的來源,是提供某種所需要數據的器件或原始媒體。在數據源中存儲了所有建立數據庫連接的信息,通過提供正確的數據源名稱,可以找到相應的數據庫連接。

        10年前我們講數據源,更多的是說一種數據連接的技術,比如JDBC、ODBC,或者是指數據庫的類型,比如結構化數據庫、非結構化數據庫。而大數據時代,數據呈多樣化發展,數據來源的多樣化是時代的一個特征。我們現在提到的數據源,除了上述的含義之外,還涉及到圖數據源、時序數據源、鍵值數據源、內存數據源、文檔數據源等。每一種數據源不同,其數據的存儲、傳輸、處理和應用的模式、場景、技術和工具也不相同。

        源數據(Source Data),注意:這個詞與數據源(Data Source)只是詞語換了一個順序,但是它們代表的含義卻是大相徑庭了。數據源本質是講存儲或處理數據的媒介,而源數據本質是在講“數據”本身,強調數據狀態是“創建”之后的“原始狀態”,也就是沒有被加工處理的數據。在數據管理的過程中,源數據一般是指直接來自源文件(業務系統數據庫、線下文件、IoT等)的數據,或者直接拷貝源文件的“副本數據”。

        主數據、基礎數據、靜態數據

        主數據是企業中需要在多個部門或系統之間共享的、核心的、高價值且相對靜態的數據。主數據是企業信息系統建設和大數據分析的基礎,被認為是企業數字化轉型的基石和企業中的黃金數據。

        基礎數據,業界還沒有一個標準的定義。但在很多信息化項目中,基礎數據這個概念都會被提及和使用。同時,常常會有客戶對基礎數據和主數據概念混淆。我理解的基礎數據是信息系統運行的基礎,用來支撐信息系統運行的各種數據和參數,以及業務交易所依賴的基礎信息。而主數據是被多個系統共享的基礎數據。因此,我理解的主數據可以是基礎數據的一部分,但基礎數據絕對不等于主數據。
        靜態數據也是一個使用比較廣泛的詞語并且是經常與基礎數據“隨機”來用的。靜態數據是指在運行過程中主要作為控制或參考用的數據,它們在很長的一段時間內不會變化,一般不隨運行而變。例如:客戶的名稱、員工的姓名、系統的參數。動態數據是常常變化、直接反映事務過程的數據,比如,網站訪問量、在線人數、日銷售額等等。因此,筆者認為將靜態數據作為基礎數據,將動態數據作為業務數據(交易數據)用是沒有問題的。只要使用的人之間達成共同的認知即可。
        數據標準、數據規范
        提到“數據標準”,可能大多數人第一時間想到的是一系列的標準化文檔,例如:產品設計標準、生產標準、質量檢驗標準、庫房管理標準、安全環保標準、物流配送標準等。事實上,數據標準不應該只是停留在文件層面的內容,更多的是要為業務的運行和管理決策提供基礎保障。

        提到“數據標準”,可能大多數人第一時間想到的是一系列的標準化文檔,例如:產品設計標準、生產標準、質量檢驗標準、庫房管理標準、安全環保標準、物流配送標準等。事實上,數據標準不應該只是停留在文件層面的內容,更多的是要為業務的運行和管理決策提供基礎保障。

        筆者理解數據標準是注重結果而數據規范是定義過程。數據標準是數據明確的定義,明確的數據分類、確定的存儲格式和既定規則的轉換、編碼等。數據標準側重于強調對數據本身的標準化,諸如:數據的定義、結構、存儲等,注重的是結果。而數據規范是指在操作層面采取的措施、循序的規則和執行的流程,側重于強調流程和操作——如何實現數據標準化,更注重過程。

        在實際工作中,我們經常會說建設“數據標準規范體系”,大多數人認為這是一個事情,但嚴格來講,這是兩件事:一是建設數據標準,二是要規范數據標準的落地的流程以及流程所涉及到的人員、組織、權限等問題。
        數據目錄、數據分類、數據標簽
        數據資源目錄,最早是政務領域提出的概念,是為了“數據需求方使用數據而提供的檢索支持”。數據資源目錄的原始驅動力是“政務數據資源共享”,是面向數據使用者的。工程實踐落地,是從2005年國家政務數據交換、目錄體系、四大庫試點開始的,并在2007年正式發布國標:《GB/T 21063-2007 政務信息資源目錄體系》。
        政務數據資源目錄是通過對政務信息資源依據規范的元數據描述,按照一定的分類方法進行排序和編碼的一組信息,用以描述各個政務信息資源的特征,以便于對政務信息資源的檢索、定位與獲取。2007年的國標給出的標準定義,站在現在政務數據治理的高度來看,原來的“目錄體系”建設,僅僅是個工具而已,已經很單薄了,當前的“數據資源目錄”,實際上可以和“數據資產管理”和“數據服務”結合在一起,才能有更好的發展前景。
        數據分類就是把具有某種共同屬性或特征的數據歸并在一起,通過其類別的屬性或特征來對數據進行區別。換句話說,就是相同內容、相同性質的信息以及要求統一管理的信息集合在一起,而把相異的和需要分別管理的信息區分開來,然后確定各個集合之間的關系,形成一個有條理的分類系統。

        數據標簽是對數據實體特征的符號表示,每一個數據標簽都是我們認識、觀察和描述數據實體的一個角度。商品有標簽,例如衣服的標簽中包含了衣服的款式、尺碼、面料、清洗方式等信息。人也有標簽,例如人的性別、年齡、地區、興趣愛好、產品偏好、購買力、忠誠度等。數據標簽也是可以分類的,例如:可以按變化頻率可分為動態標簽、靜態標簽;按評估的方式不同,分為定量指標和定性指標;按來源不同,分為基礎標簽、業務標簽、智能標簽等。

        在實際的數據資產管理中,數據資源目錄、數據分類、數據標簽是相互配合、相輔相成的。建立良好的數據資源目錄的第一步就是明確數據資源的分類,根據數據分類去組織資源、編目,之后是為數據資源打上數據標簽,讓數據資源更貼近用戶、更容易管理,以便充分發揮出數據的價值。

        數據模型、數據結構、數據字典

        數據(Data)是描述事物的符號記錄,模型(Model)是現實世界的抽象,數據模型(Data Model)是數據特征的抽象和描述。

        專業的術語總是抽象的,我們舉個例子,假如你去買房子,就會看到兩個模型,一個是樓盤模型,另一個是戶型模型(戶型圖)。樓盤模型描述了樓盤規劃、小區位置、小區綠化、交通條件、周邊的配套設施(幼兒園、學校、醫院等)、未來樓盤發展等等。戶型模型描述了房子有幾室幾廳、幾個陽臺,哪里是門,哪里是墻,哪里是窗戶,每個房間的平米數是多少,甚至是屋子里的布局全部都用各種符號表示得清清楚楚。

        就如樓盤模型描述樓盤,戶型模型描述房子一樣,數據模型是用來描述數據的一組簡單易懂便于計算機實現的符號的集合。

        再說數據結構,數據結構是指相互之間存在一種或多種特定關系的數據元素的集合。一般認為數據結構是構成數據模型的三個要素之一。數據模型一般會分為概念模型、邏輯模型、物理模型,而數據的邏輯結構、物理結構是與邏輯模型、物理模型對應的。邏輯結構反映數據元素之間的數據關系,包含數據元素的層次關系、關聯關系,不包含數據在計算機中的存儲位置;數據的物理結構是指數據的邏輯結構在計算機存儲空間的存放形式。如果還拿房子舉例的話,我認為說戶型模型或者戶型結構都是沒有問題的。

        數據字典是指對數據的數據項、數據結構、數據流、數據存儲、處理邏輯、外部實體等進行定義和描述,這個是數據字典的標準定義。但是,目前的實際使用中對數據字典有兩種不同的說法或用法。

        一種說法是:在軟件工程中,數據字典是作為分析階段的工具,供人查詢對不了解的條目的解釋,例如:描述某個數據表中都包含了哪些數據項,某個數據項的業務含義是什么等。

        另外一個說法是:對基礎數據參照的管理,我們還拿房子舉例,一個房子的數據字典,包括,房屋的朝向:東,南,西,北,東西,南北等;房屋的戶型:兩室一廳,三室一廳,兩室二廳,三室兩廳等;房屋的性質:經濟適用房,房改房,商品房等。

        如果按第一種說法理解數據字典,其實本質上和數據模型沒有什么區別,只是叫法不同而已。如果按第二種說法理解,似乎叫參照數據管理也沒什么不妥。到底該怎么理解?這可能就“仁者見仁智者見智”了。

        數據倉庫、數據湖、數據工廠、數據中臺

        數據倉庫(Data Warehouse)是一個面向主題的、集成的、相對穩定的、反映歷史變化的數據集合,用于支持管理決策和信息的全局共享。

        所謂面向主題,是指根據使用者實際需求,將不同數據源的數據在一個較高的抽象層次上做整合,所有數據都圍繞某一主題來組織,例如:采購主題、生產主題、客戶主題、銷售主題等。

        所謂集成性,是指數據倉庫中存儲的數據是來源于多個數據源的集成、匯總。由于原始數據來自不同的數據源,存儲方式各不相同。要整合成為最終的數據集合,需要從數據源經過一系列抽取、清洗、轉換的過程。

        所謂相對穩定,是指數據倉庫中存儲的數據一般為“既成事實”的數據,也可理解為歷史數據的一個快照,只做查詢分析用,不允許修改。

        所謂反映歷史變化,是指數據倉庫根據不斷集成新的主題數據,反映出該主題的數據變化情況,例如:銷售業績完成情況。

        數據湖是將來自不同數據源、不同數據類型(結構化、半結構化、非結構化)的數據,以原始格式進行存儲的系統,它按原樣存儲數據,而無需事先對數據進行結構化處理。有人認為數據湖是數據倉庫的PLUS版,增強了數據存儲的能力。而實際上,數據湖不簡單是數據倉庫一個技術上的升級,更重要的是數據管理思維的升級。數據倉庫是需要事先定義好數據結構,然后是報表取數。而大數據的發展,數據形式越發多樣化,傳統數倉這種定義數據結構、取數、出表的模式,已經很難滿足業務上的需求了。因此,數據湖以原始格式存儲各種類型數據,以及按需進行數據結構化處理、數據清理、提供數據服務,以更加靈活的方式支持多種應用場景的能力越來越受到人們的歡迎。

        再來說說這個數據工廠。前邊提到的數據倉庫和數據湖,重點側重于數據的存儲,本質上是“原材料”的存儲系統,而要讓數據發揮價值,就必須將這個“原材料”需要加工成用戶需要的“產品”。數據工廠就是根據用戶的需求,將原始數據進行加工、處理、清洗、轉換、匯總等各種加工工序,生產出能夠被用戶直接使用的數據產品。數據工廠包含了多種數據處理的工具,以滿足不同處理工序的作業需要,例如:數據源連接、數據同步、數據清洗、數據轉換、數據工作流、數據目錄、數據服務等等。

        最后,再說說數據中臺。其實,如果從功能構件上來講,我認為:數據中臺就是數據湖+數據工廠的一個綜合。但不同的是數據中臺更注重數據應用,離業務更近,強調一個快速敏捷。

        數據中臺不僅關注原始數據的存儲及處理加工,更側重將數據處理過程中常用的邏輯、算法、標簽、模型進行沉淀,而形成一系列的“數據半成品”,然后根據前臺業務的需要,快速生產出用戶需要的“數據產品”。數據中臺能力強弱,要看這個“數據半成品”積累的多少了。

        在數據生產的整個鏈條中,對于如何筑湖、如何選址建廠、按什么工序加工,以及如何配送,這是技術部門的事情,而“數據半成品”的沉淀和積累,卻不是技術能決定的了。因此,數據中臺的建設更強調需求驅動、業務主導。

        數據指標、數據維度、數據度量

        數據治理的目標是讓數據更好的使用,而數據的應用和分析的過程就不得不理一下數據指標、數據維度、數據度量這幾個概念了。

        數據指標是用數據表示,用來衡量對象目標的參數或預期中打算達到的指數、規格、標準,是具有(業務)意義的指向和標桿。數據指標分為基礎指標和衍生指標,基礎指標是指表達業務實體原子量化屬性的且不可再分的指標,如交易筆數、交易金額、在線用戶數等;衍生指標是在基礎指標的基礎上,通過添加一個或多個統計維度形成新的指標、或通過不同指標進行運算而形成新的指標,如平均購買金額、生產計劃完成值,累計問題數、同比、環比、占比等。

        關于“維度”,網上很多人給出的定義是這樣的:維度可指定不同值的對象的描述性屬性或特征。不知道大家能不能看懂,如果只看這段文字,我是一臉懵逼的。我理解的維度就是觀察和分析事物或指標的不同角度,例如:銷售額這個指標,可以按時間周期(當日、周、月、季度、年度)進行分析,也可以按照產品類型(A產品銷售額、B產品銷售額……)分析,也可以按地理位置(北京銷售額、上海銷售額……)分析,還可以按銷售主體(a部門銷售額、b部門銷售額)分析等等。

        最后說下度量。度量是被聚合(觀察)的統計值,也就是聚合運算的結果,維度其實可以理解成一種分類的方式,或者叫做標簽,而度量往往是一個計算出來的數值。度量可以是指標的度量衡也可以是針對指標的某個維度的度量,例如上邊例子中,銷售額的度量是金額,當月銷售金額也是度量。

        度量、維度、指標不是固定的,在一定的應用場下度量可以轉化為維度,維度也可以轉化為指標。篇幅問題,有關度量、維度、指標的轉化這里就不展開了。

        關于達美盛:

        北京達美盛軟件股份有限公司(以下簡稱“達美盛”,股票代碼:430311)是一家跨平臺資產全壽期數據管理(ALIM)平臺提供商,致力于通過自主可視化、輕量化核心技術,基于工程和運維一體化數據,為客戶構建“數字孿生(Digital Twin)”,打造全壽期資產管理與價值提升解決方案。

        達美盛通過十多年技術打磨和經驗累積,創立“三位一體”產品和服務:

        “1”個引擎:跨平臺可視化引擎eZWalker;

        “2”個平臺:工廠可視化大數據管理平臺PIMCenter/eZWalker Tesla可視化開發平臺;

        “3”個應用:工程項目管理系統 PIMCenter PPM/云協同及移交系統 PIMCenter HO /資產管理系統 PIMCenter APM。

        達美盛為國家高新技術企業、中關村高新技術企業、《工程建設標準化》理事會理事單位, ISO15926國內首家發起成員,CFIHOS組織成員單位,并通過了ISO9001、ISO14001、OHSAS18001等質量體系認證;榮獲2016年度最佳數字化工廠服務商、2016年度“基礎設 施可視化資產管理最佳應用獎”;其全資子公司四川達美盛工程設計有限公司具備石油天然氣設計資質。


        標簽:   數據治理 數據管理 數據管控
        а∨天堂在线中文免费不卡