精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
終于有人把數據標準和數據質量講明白了

主要包括三部分內容:

1. 相關概念和框架

2. 工具和技術

3. 典型案例

分享嘉賓|謝輝 滴普科技 MO總監

編輯整理|李科 浪潮集團

出品社區|DataFun


01
相關概念和框架
首先來看一下數據標準的概念我們可能經常聽到這個詞語,卻并不清楚其定義,不知道其中包含了什么。

在國際數據管理協會的關于職能域的車輪圖中,并沒有數據標準這一項。國內的 DCMM 框架中有數據標準一項。

另外, IBM 的數據治理框架,以及 CMMI 的框架中也是沒有數據標準的。我們可以去分析一下國內的權威機構關于數據標準的定義,如下圖所示:

通過總結國內對數據標準的定義,再去看 DAMA 框架就會發現,其數據治理中是包含了對數據標準的定義的。

國外的企業一般不會使用 Data Standards 這個詞,它會具體映射到左邊的,比如 Glossary,就是業務術語,或者說 Data Dictionary、數據字典,還有 Data Elements 就是數據元或數據項。在他們的語境當中業務術語是面向公司所有受眾的,需要確保在一個組織中大家都使用正確的術語。數據字典更多的是給技術員工在管理數據的時候用的,它定義描述數據集,還有數據字段相關的屬性。

對于業務術語而言,它的業務屬性就是這個詞語代表了業務含義,在技術層面就是數據的表現形式、取值范圍等。管理屬性是這個術語對應在組織內的一個歸屬。

下面是業務術語的數據標準的舉例,比如企業法人,我們對它有一個定義和分類,它里面的這個數據元會有對應的描述,我們對這個描述會有很多的約定。當我們去梳理一個企業內部的所有數據的時候,從上往下去看會把它分成多個 level,第一個就是企業所有數據主題域的分組,它體現的是從數據的視角去看企業所有數據,它真正在業務層面映射的相關大領域對應的主題域是互不重疊的。

再舉個例子,比如貨品管理,它可以分為訂貨、庫存,這兩個是可以去分析的主題域或者業務上關心的主題域,對應的業務對象是訂貨,相關的訂單就是它的業務對象。再下層去拆解的話,會有業務關系和邏輯實體,那邏輯實體是真正具有邏輯關系的一些屬性組合,比如訂單表本身是一個實體,然后表中的對應的字段是這個實體所干預的業務中定義的一些屬性。最后的屬性是我們經常提到的這個數據元或者數據項。

從業務角度對這些屬性進行分辨。比如業務規則就是基礎元數據,包括主數據、參考數據、計算方法、統計口徑等。從技術角度來看,字段類別、字段格式長度屬于來源,統計粒度還有統計周期,就是指標類樹立標準所必須的。相關的管理屬性,包括標準本身的版本、標準的創建日期,還有標準的管理部門等。

下面是主數據和參考數據的數據標準舉例,比如北京、上海、廣州,它所屬的省份的簡稱可以對它進行定義為對應的中文名稱的拼音第一個字母,城市的類別把它定義為一線城市、二線城市。這個是對所有的主數據當中的字段的一個描述,也就是元數據。這是指標的梳理標準。

下面有一個具體的例子,比如撥備覆蓋率就是指標的名稱,把它歸類為基本屬性,然后對指標的業務含義進行定義,指的就是貸款損失準備對不良貸款的一個比率。指標的類型屬于比率類。從技術角度來看,它在底層占有的長度是 8,精度是 4。管理屬性就是它的第一部門是誰,這個指標的版本是多少號。對于指標的數據標準,要從下面的 5 個角度去考量它,需要能夠比較準確地去表達業務含義。

指標必須要有非常可信的來源,所以來源也是重要的考量指標可信度的維度。

下面看下數據標準的成熟度評估,第一個是數據標準有沒有被完全解讀,大家有沒有充分的理解?標準本身夠不夠完整,夠不夠清晰?標準在組織內部的發布還有傳播有沒有到位,有沒有貫徹,標準的管理變更流程夠不夠全面,執行是不是夠徹底?我們可以從這幾個角度去看一個企業內部的標準當前建設的成熟度到了什么樣的程度。

數據質量指的是在特定的業務環境下,數據滿足業務運行、管理與決策的程度,是保障數據應用效果的一個基礎。數據質量管理指的是運用相關的技術來衡量、提高和確保數據質量的規劃、實施與控制的一系列活動。所以從這里面可以看出數據質量也是一個非常龐大的系統工程。數據質量真正要去落地的時候,有以下幾點需要注意:
(1)真正去落地是需要和具體的企業當中的經營管理痛點相結合,需要企業內部的 IT 數據團隊和業務團隊一起解決問題。
(2)PDCA 的循環要做起來,走通一個閉環之后,后面要持續去迭代。
(3)不能夠期望僅僅依靠一個工具或者多個工具就能夠解決數據質量的問題,它只能夠解決一部分的通用問題。

數據質量的考量維度有很多分法,最重要的一個就是數據的真實性,它必須真實地去表達客觀實體或者真實的業務。其次還有準確性或者叫可靠性,它適用于分析和識別那些不準確無效數據的一些方法。
唯一性就需要我們去識別,還有度量重復數據,去掉冗余的數據,重復的數據會導致業務很難協同。還有數據的完整性,如果說模型設計不完整,那數據會有很多缺失或者很難使用。一致性其實是現在數據質量建設的重點,因為內部的多源系統,它的數據模型不統一,那它代表的各種約束也不一致,實體代表的含義也不一致。
數據的關聯性指的是比如有主外間關系,那兩者的分析結果也會有對應的關聯,然后及時性也是現在大家比較關心的數據質量的問題,實時地能夠去反映我們的業務的狀況,然后對應的快速決策實現在企業的一個非常重要的競爭力。

數據質量出現問題的原因非常多。從技術角度來看,有可能會出現數據的不完整。數據源本身如果沒有做質量的控制,數據就會比較雜亂。還有采集的過程當中,如果對于采集數據的定義沒有理清楚,采集的數據可能和我們想要的不太一樣,傳輸過程當中可能會有網絡閃斷,或者中間出現傳輸問題,數據有可能會丟失。
在業務方面最大的問題是業務團隊和數據團隊交流的時候,對于需求沒有互相對齊,或者需求不太明確,理解不一致。另外需求變更很頻繁也會導致質量問題。在管理方面最大的難題是缺少管理的機構和目標機制。

下面舉個例子,比較適合于大型集團。制度規范有數據質量管理的規范,管理的辦法有考核辦法,有事中的監控管理、事后的處理、事前的防范等相應的方法。技術的規范和模板包括數據質量的檢查規則。

數據質量的考量維度可以根據不同的需求去評估,最重要的是我們能夠去解決具體的經營管理的問題,從這個導向來出發,把它轉變成對于數據的需求,從解決具體的某一個小問題出發去形成一個閉環。如果數據質量的管控想要真正落地的話,KPI 績效是一個非常重要的點。
下面舉一個例子是如何去評估數據質量管理的牽頭團隊,可以把它分成兩個方向。質量問題本身可以有如下的這個角度,第一個是問題的個數、影響的范圍和嚴重的程度,考核對象可以是問題的個數,考核對象就是數據管理團隊的這個負責人。

質量問題的處理可以根據問題的及時性來進行評估,可以從事后治理、事中監控還有事前防范三個方面進行管理。

歷史數據是大多數企業進行數據質量項目的第一步,數據質量的事后治理可以從這個問題的發起,發現問題提交給相關方,然后制定解決問題的規則,去思考問題出現的基本原因和相關的影響范圍,最后制定出相關的方案進行實施。

事中監控最好是通過工具來執行,它的輸入是根據過往經驗得到的梳理標準和業務的需求,把它轉變成 PDCA 自動化的流程,對應的標準轉變成數據質量的監控規則,在工具中進行配置落地,并進行實時的執行,最終輸出數據質量報告。

事前防范是最難的一項,它是為了總結業務需求,編成經過思考的一些模板。

對于數據質量解決效果的評估可以從四個方面進行評估,第一個是管理流程是不是夠完善,相應的組織夠不夠健全。第二個是質量規則的落地和識別。 

當我們去管理數據標準和數據質量時,對應的組織保障把它分成了 3 個類別,分別適用于不同的機構。
第一種是集中式的,它的特點是數據管理的負責人和數據管理團隊是專職的、永久的,他們對所有數據的產生、演變、維護進行集中式的管控。這一種管控方式的優勢是它有一個強有力的數據管理的專業組織,負責企業級的數據管理,職責明確,目標清晰。組織是固定的,組織內可以做專業化的分工,整個匯報條線清晰,自上而下的執行具有驅動力。
他的問題是對于數據管理人員的能力要求非常高,整個組織比較龐大,成本也比較高,其他部門可能沒有數據管理的能力,所以需要跨部門的溝通,成本比較高,對協作的要求也比較高。因為比較集中,所以容易僵化,會影響工作效率,所以這個集中式的方式非常適合于集團企業,比如大型的央企、大型的集團。

第二種是聯邦方式,它的特點是在總部設立一個數據管理的負責人,對數據管理整體的活動進行協調管控,在各個業務單元設立專門的組織或者角色,他負責業務領域的數據管理工作。整個組織的成員可以是專人專崗,也可以是兼職。
它的優勢是數據管理和業務管理可以更好地融合,可以根據職責的需要設置崗位,執行效率比較高,同時它能夠比較好地實現橫向的協調和拉通。另外就是專業化的分工也具備,所以有助于團隊對應的能力的提升。它的挑戰是縱向需要加強組織影響力,還有協調能力,驅動企業數據管理的工作。還有一個挑戰是數據管控的力度相對于集中式會弱一些,所以需要通過其他手段,比如評價進行監督。
第三種是分散式的,它的特點是不存在一個企業級的數據管理負責人,數據相關的活動分散在各個部門,的成員也是以監管為主,它的優勢是每個業務單元能夠比較好地去理解自己的業務,每個業務單元容易在單個的業務領域上和系統上實現數據管理的工作。
另外在應用需求的基礎上樹立的問題可以在單部門中快速被解決,所以一般服務滿意度會相對比較高。挑戰是缺乏一個企業級的管理視角,跨業務部門的協作會比較困難。所以對于聯邦式比較適合于大部分的中小企業。

這個是對于集中式管理的組織保障的拆解,首先應該有個決策組織,這決策組織可以是數據治理的委員會,然后在下面去做管理的應該有一個數據治理的辦公室。對于每一個職能域都有對應的負責人,在每個業務單元有對應的數據的責任人,在 IT 層面也有對應的比較明細的分工,去解決我們梳理當中出現的問題。
02
工具和技術
接下來分享第二部分是數據標準和數據質量相關的工具。

首先去采集數據標準內部的信息模型,還有標準相關的文檔,把它轉變成標準管理系統中的一些內容。然后標準當中有些內容可以轉變成質量中的檢查規則,有些業務需求也可以變成數據質量監控規則。他們會不斷調用統一的元數據管理內容去進行檢查。

這是系統管理數據元的演示。對于數據元可以去約束它的名稱、狀態、類型、數據格式、來源、關系等,這個標準可以映射到具體的表中字段進行審核處理。

對于結構化數據標準比較好理解,那非結化數據標準有哪些方法進行管理?
第一種方法是在業務場景中進行治理,海量的非結構化數據治理的成本非常高,所以必須在業務流程當中識別出其中業務價值比較大的數據進行治理,獲取最大的投資回報。在業務場景當中提煉出關鍵數據和客戶現在系統中的數據進行融合,通過數據服務的方式供業務去調用。
第二種是把非結構化數據轉變成結構化數據,用結構化的數據進行管理。
第三種是映射結構化的元數據,簡化元數據模型。第四種方法是構建一個非結構化數據資產體系,把數據融合到數據資產管理當中,通過對廢棄化數據資產進行智能化的標簽識別管理。

數據標準的映射在承接數據標準之后,很容易把它映射到具體的數據項當中。

在過往的很多數據類的項目當中,很多企業都進行過數據質量的相關管控,其中的重點是能夠把 PDCA 的整個閉環做好,從需求開始到最終形成規則去檢查,然后自動化地去調度執行,形成對應的知識庫。

另外管理標準和質量現在比較火的一個方向是主動的數據治理,首先在數據進入的時候,可以自動把數據標準和具體的數據做關聯,這個標準可以和建立數據模型的對應的數據項關聯起來,之后在數據開發過程當中可以去執行,執行完之后在生產調度過程當中產生的新的數據,對應的標準規則會自動執行對它進行評估。

另外一個能夠提升標準和質量的比較新的一個方式是提供企業級的數據目錄,通過數據目錄形成數據資產的整個的詳細清單,清單的底層依賴元數據去管理數據,它可以幫助分析師、科學家還有工程師快速找到他需要的數據。
03
典型案例
第三部分是典型案例。客戶本身期望能夠做到數據資產化,數據能夠大集中,能夠統一的存儲和計算,能夠有一套先進的數據架構,能夠有統一的規范打通各個業務單元,使用的時候能夠進行數據化的運營,能夠快速地讓數據為業務所用。整個項目分成幾個階段。

首先是滿足業務用戶的需要,對應的是需要數據模型自助地讓業務去使用,同時有數據標準能夠去規范數據本身。主數據對應的內容能夠讓業務人員快速使用,并且業務之間、業務系統之間主數據能夠打通,形成統一的標準。

在這個項目當中我們為客戶做的事情是構建了數據治理體系。 

第二個典型案例是數據質量的提升項目。客戶要求是希望能夠讓數據可知、可管、可視,希望能夠提升數據質量監控規則覆蓋的業務領域,實現覆蓋各類營銷等業務系統,讓集團知道數據質量的情況,有系統進行自動化的檢查,數據質量對應的指標能夠可以及時感知,數據指標本身能夠洞察業務驅動數據價值的變現。
我們細分之后會發現可以分成這么幾類,第一個是對于單表質量的檢測,這是針對 Hive code、 Oracle 等數據源類型的數據質量的監控。第二個是對流式數據質量的檢測,針對 Kafka 類型的數據進行檢查。第三個希望能夠進行多表的數據比對分析,能夠設定各種規則。第四個能夠進行數據指標的分析。第五個是質量的規則能夠關聯內置的客戶已有模板,能夠自定義 SQL 的規則。最后是能夠進行質量規則的合規校驗,可以通過固定的閾值周期性統計波動的方式來判定目標是不是合規。

我們提供的數據質量的監控工具,可以提供多表的對比,所以可以針對這個源表和目標表的記錄條數,還有具體的數據進行比對,可以及時告警發現問題。第二個具體的問題是數據質量問題的紅綠燈機制,它的場景是每天都會進行任務的加工過程,當中可能會出現數據異常,比如異常如果影響業務的話,希望能夠阻斷并告知相關的責任人。

同時這個問題的處理希望能夠指派給不同等級的工單,給不同崗位的人去處理,面對這樣的需求,首先我們的工具里面可以設置強弱規則,工單系統可以設定不同的規則,給不同的人進行處理。
04

問答環節

Q1:數據質量評估的標準和數據質量的規則是什么?
A1:我覺得有好幾個層面,第一個是純粹技術層面的評估,技術層面的評估可以去看,比如在這個工具上有了數據質量的一些要求,這個要求在我們檢查實現的時候,實現的程度是不是滿足了業務的需要?第二個是現在圖中展示的,就是當一個企業從組織層面想看一下數據質量的整個執行怎么樣?那它不僅僅是包括技術內容本身,它還包含數據質量的整個管理有沒有執行到位。
Q2:數據模型是否屬于數據標準的范疇?
A2:是屬于的,我們可以看一下前面的數據治理的理論框架,就是數據標準,它是一個典型的大詞,和建模相關、和架構相關、和質量相關。當我們去看廣義的數據標準的時候,它有一些和數據治理相似的地方,比如它會要求組織保障上有對應的人員,然后還有制度流程有沒有對應的規范。那數據模型其實當我們把它拆解開來的時候,會發現這個模型里面,比如主數據的,還有因為模型這個概念比較大,主數據本身是數據標準管理的一個范疇,那主數據管理我們對它還會有標準的要求。
Q3:現在有哪些數據標準?
A3:數據標準這邊有一個分類,如果是一個廣義的數據標準的話,會包含很多方面。但是我們看到我們去討論細而微的事情的時候,數據標準可以看里面的分類包含我們要對業務數據進行數據標準的管理,對主數據、參考數據還有指標進行數據標準的管理。
Q4:如何對歷史留存的建模或者指標進行統一的梳理標準?
A4:剛才我們去講數據質量的時候,有一個事后管控,就是對存量數據進行數據標準的管理,最佳的實踐根據我們過往的經驗,其實是我們先選擇。首先我們應該有一個對應的經營管理當中的痛點,以這個痛點為抓手,然后我們去尋找這個數據所屬的那個主題域,我們可以拿一個小小的主題域作為其中的一個試點,那這樣一種方式是相對而言比較容易落地的方式。
Q5:在啟動數據治理項目后如何解決甲方信息部門無法協調各業務部門,導致各類組織架構流程無法落地,只能停留在紙面上的問題?對乙方來說,如果要陪甲方無限度的持續治理,那項目的周期和成本如何處理?
A5:這個問題是作為乙方經常遇到的很常見的問題,我個人的建議最好的解決方式還是甲方自己需要有一個組織的保障。我前面有一部分就是講我們的對于數據標準和數據質量,如果要落地的話,組織保障相應的一些類別,我覺得可以參考這里面的內容。
首先組織保障是第一位的,是最重要的,那有了這個組織保障我們要選擇,如果說是那種特別大的企業的話,其實需要有個強有力的數據治理的部門,他們需要有非常高的權威去推動這件事情執行落地。然后如果是相對中小型的話,可以選擇聯邦的這種方式。對于乙方如果要陪甲方無限度地持續治理項目的周期和成本如何處理?這個問題比較難以回答,我覺得最關鍵的其實是把我們的數據治理的范圍確定好,甲方是做無限期的持續數據治理的時候,如果出現這樣的問題,那是不是我們在做這個項目的前期沒有把這個邊界梳理得足夠清楚?然后它應該是分階段的,然后數據治理應該伴隨著一個企業的整個生命周期,所以每個階段只能做每個階段的事情,我覺得最關鍵應該是把我們的整個的每個項目的這個邊界理清楚。
Q6:后續如果因為業務的變更,數據的口徑需要更改,是否可以低代碼完成維護操作?
A6:像這類問題的話其實是可以解決,有一類工具它可以做到數據指標的可視化的管理。然后在這個數據指標的定義過程當中去設定口徑的時候,如果說需要更改,那可以在這類工具上進行更改,更改之后他會把所有歷史數據進行一個重算,通過這種方式就可以實現低代碼的方式完成工作。
Q7:從整個數據治理的理論,所謂治理的工作無法界定工作邊界,比如一個系統有 1000 張表,對其中關鍵表做數據質量的治理,或者對所有表進行治理,其工作量是完全不同的。而一個項目的預算是有邊界的,如何去界定數據的項目在界定數據治理范圍后,如何在項目結束時給需求方展示數據治理的實際價值?
A7:您問的這個問題非常好,治理一張表和千張表確實工作量是完全不一樣的,所以我們真正去落地數據治理項目的時候,需要在確定邊界的時候,最好的一個邊界的點就是如何給需求方展示數據治理的這個價值。所以我們去啟動一個數據治理的項目,第一個就是要找到這個經營管理當中的痛點,可以尋找其中的一個主題域,甚至說找到一個主題域當中的一部分的關心的業務問題,先解決這一部分數據的這個問題。所以這個是一個關鍵,就是我們從主題域的角度出發這個數據這個項目,還有要解決這個具體的經營管理當中的一些痛點問題。
Q8:數據質量管理的效果如何評估?
A8:管理的效果的話,這邊有一個給大家的一個示例可以看一下,比如我們去評估這個數據質量的管理效果的話,這四個維度偏向于管理維度,那我們可以增加一個維度,就是數據質量真正解決了問題業務問題的不是業務痛點的個數,所以這些結合起來的話就可以去評估管理的效果。
Q9:數據標準和質量有什么技術壁壘嗎?
A9:我覺得數據標準和數據質量最關鍵的點可能不是技術壁壘,最關鍵點應該是我們經營管理當中對于標準和質量的一個要求,找到這個突破點。然后另外的關鍵就是對應的執行過程當中要把它形成一個閉環,那這個閉環其中對標準和質量的這個工具會有大量的這個定制化的一個要求。那這個定制化的要求怎么實現?我覺得可能是一個甲方企業需要去考慮的問題,因為它牽扯到供應商提供的一定是一個標準化的工具,所以我們這個甲方企業如何去把這一些我們的個性化的一些規則變成通用工具,在上面可以運轉的這個規則盡量覆蓋質量的問題。我覺得是我們這數據標準和數據量這兩個主題最關鍵需要解決的問題。

Q10:元數據能否自動抽取和管理?

A10:其實這個是可以的,就是所有的數據的集成工具要能夠從源端去抽取數據,首先要識別它的源數據,所以元數據本身也是可以使用同類的工具去識別、抽取和管理的。
今天的分享就到這里,謝謝大家。

<END>

本站僅提供存儲服務,所有內容均由用戶發布,如發現有害或侵權內容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
企業數據標準管理系統怎么做,這樣效率快很多
數據治理中,常用的術語解釋
數據治理:讓數據質量更好
數據治理怎么做?這篇萬字長文終于講清楚了!
大數據時代,數據管理的12條鐵則
面向數據中臺的數據治理七把利劍
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯系客服!

聯系客服

主站蜘蛛池模板: 镇沅| 藁城市| 白朗县| 门源| 唐海县| 松潘县| 金溪县| 内乡县| 伊川县| 黄平县| 昌都县| 大丰市| 镇康县| 西乌珠穆沁旗| 鄂尔多斯市| 台北市| 无棣县| 青龙| 福鼎市| 博湖县| 甘南县| 弥勒县| 昭苏县| 土默特右旗| 桦川县| 开阳县| 大厂| 朝阳区| 舒城县| 安阳县| 金阳县| 和田市| 清苑县| 海宁市| 卢氏县| 华蓥市| 福贡县| 丰宁| 浪卡子县| 太谷县| 兰西县|