大數(shù)據(jù)時(shí)代的到來,讓政府、企業(yè)看到了數(shù)據(jù)資產(chǎn)的價(jià)值,快速開始探索應(yīng)用場(chǎng)景和商業(yè)模式、建設(shè)技術(shù)平臺(tái)。這無可厚非。但是,如果在大數(shù)據(jù)拼圖中遺忘了數(shù)據(jù)治理,那么做再多的業(yè)務(wù)和技術(shù)投入也是徒勞的,因?yàn)楹芙?jīng)典的一句話:Garbage in ,Garbage out,數(shù)據(jù)質(zhì)量沒有保證。而保證數(shù)據(jù)質(zhì)量,數(shù)據(jù)治理是必須的手段。
數(shù)據(jù)治理這個(gè)話題看似陽春白雪高大上,實(shí)際上是非常下里巴人接地氣,或者說必須要頂天立地才能見實(shí)效。頂天是指,與信息化類似,數(shù)據(jù)治理也是一把手工程,沒有高層推動(dòng)、在業(yè)務(wù)與業(yè)務(wù)間、業(yè)務(wù)與技術(shù)間協(xié)調(diào),數(shù)據(jù)治理無法落地;立地是指:一般是IT人員對(duì)數(shù)據(jù)問題有深刻體會(huì),也是IT人員最先意識(shí)到數(shù)據(jù)治理的重要性,而且數(shù)據(jù)治理最終是在IT層面落地的。
一、數(shù)據(jù)治理相關(guān)概念
1.1 數(shù)據(jù)分類
言歸正傳,首先是基本概念部分,既然談到數(shù)據(jù),首先要看一下數(shù)據(jù)的分類。其實(shí)筆者有點(diǎn)擔(dān)心提到“分類”這個(gè)詞,因?yàn)槊總€(gè)人、每個(gè)角色分類的視角都是不同的,各有道理。
這里所提的數(shù)據(jù)分類,是指在企業(yè)信息化領(lǐng)域做數(shù)據(jù)治理通常的分類方式。有其他方式也歡迎提出來大家一起探討。我們通常將數(shù)據(jù)分為:主數(shù)據(jù)、交易數(shù)據(jù)、參考數(shù)據(jù)、元數(shù)據(jù)和統(tǒng)計(jì)分析數(shù)據(jù)(指標(biāo))。上一張圖來說明:
為什么要談數(shù)據(jù)分類,因?yàn)閷?duì)每類數(shù)據(jù)進(jìn)行治理時(shí),關(guān)注點(diǎn)、方法和效果都不同,需要區(qū)別對(duì)待。下面談一點(diǎn)筆者個(gè)人的理解:
主數(shù)據(jù)關(guān)注的是“人”和“物”,主數(shù)據(jù)管理(MDM)是數(shù)據(jù)治理領(lǐng)域一個(gè)專門的話題,其主要目的是對(duì)關(guān)鍵業(yè)務(wù)實(shí)體(如員工、客戶、產(chǎn)品、供應(yīng)商等)建立統(tǒng)一視圖,讓客觀世界里本是同一個(gè)人或物,在數(shù)據(jù)世界里也能做到唯一識(shí)別,而不是在不同系統(tǒng)、不同業(yè)務(wù)中成為不同的人或物。主數(shù)據(jù)管理在各行業(yè)企業(yè)已經(jīng)有大量的實(shí)踐,受限于時(shí)間,今天不單獨(dú)展開,其核心管理思想是和后面要談的數(shù)據(jù)治理方法一脈相承的。
交易數(shù)據(jù)關(guān)注的是“事”,交易數(shù)據(jù)沒有形成單獨(dú)的數(shù)據(jù)治理領(lǐng)域,由于交易數(shù)據(jù)是BI分析的基礎(chǔ),因此往往在數(shù)據(jù)質(zhì)量管理中重點(diǎn)關(guān)注;
參考數(shù)據(jù)是更細(xì)粒度的數(shù)據(jù),是對(duì)“人”“事”“物”的某些屬性進(jìn)行規(guī)范性描述的,對(duì)參考數(shù)據(jù)的管理一般會(huì)與主數(shù)據(jù)管理同時(shí)進(jìn)行,或與BI數(shù)據(jù)質(zhì)量管理同時(shí)進(jìn)行,因?yàn)橹笜?biāo)維度和維值直接影響到BI數(shù)據(jù)質(zhì)量;
元數(shù)據(jù)是一個(gè)包羅萬象的概念,其本質(zhì)是為數(shù)據(jù)提供描述,所以任何數(shù)據(jù)都有元數(shù)據(jù)。數(shù)據(jù)治理領(lǐng)域的元數(shù)據(jù),更多是指BI、數(shù)據(jù)倉庫這個(gè)范疇內(nèi)的元數(shù)據(jù)(國際上有Common Warehouse Meta-model規(guī)范),此外還有信息資源管理的元數(shù)據(jù)(如Dublin core協(xié)議)、地理信息元數(shù)據(jù)、氣象元數(shù)據(jù)等等。正因?yàn)槿绱藦V泛,也造成了從業(yè)者對(duì)其有極高的預(yù)期以及實(shí)踐后的極大失落。
多說兩句元數(shù)據(jù):筆者從事過4年左右元數(shù)據(jù)管理的產(chǎn)品設(shè)計(jì)和方案規(guī)劃,但現(xiàn)在極少談“元數(shù)據(jù)”,而是談“數(shù)據(jù)定義”,談數(shù)據(jù)必談定義,但卻又不將其作為專門一類數(shù)據(jù)來管理,在數(shù)據(jù)治理領(lǐng)域單獨(dú)做元數(shù)據(jù)管理,收效甚微。
主要原因有兩點(diǎn):
數(shù)據(jù)生產(chǎn)與數(shù)據(jù)管理脫節(jié),元數(shù)據(jù)管理更多是在數(shù)據(jù)生產(chǎn)的事后進(jìn)行元數(shù)據(jù)收集和應(yīng)用展現(xiàn),對(duì)數(shù)據(jù)生產(chǎn)起到的管控作用極小。
工具自身問題:雖然很多工具都號(hào)稱支持CWM規(guī)范,但元數(shù)據(jù)自動(dòng)獲取始終是技術(shù)難題,而且對(duì)于存儲(chǔ)過程、自定義腳本很難自動(dòng)解析和獲取,就無法準(zhǔn)確、完整展現(xiàn)細(xì)節(jié)的數(shù)據(jù)處理過程。
統(tǒng)計(jì)分析數(shù)據(jù)(指標(biāo)),無需多言,目前BI系統(tǒng)建設(shè)的主要作用就是做各種指標(biāo)和報(bào)表的計(jì)算和展示。指標(biāo)往往是數(shù)據(jù)治理的重點(diǎn),指標(biāo)的數(shù)據(jù)流分析、指標(biāo)數(shù)值的波動(dòng)性、平衡性監(jiān)控,幾乎是各個(gè)企業(yè)做數(shù)據(jù)治理的必備應(yīng)用。
1.2數(shù)據(jù)治理
談完數(shù)據(jù)分類,再來談“什么是數(shù)據(jù)治理”。數(shù)據(jù)治理的英文是DataGovernance,不同軟件廠商和咨詢公司給出的定義也會(huì)有所不同,但本質(zhì)都是相似的。
這里引用《DAMA 數(shù)據(jù)管理知識(shí)體系指南》一書給出的定義:數(shù)據(jù)治理是對(duì)數(shù)據(jù)資產(chǎn)管理行使權(quán)力和控制的活動(dòng)集合(規(guī)劃、監(jiān)控和執(zhí)行)。數(shù)據(jù)治理職能指導(dǎo)其他數(shù)據(jù)管理職能如何執(zhí)行。可能有些抽象,有圖有真相,下面這張圖說明了數(shù)據(jù)治理與其他幾個(gè)數(shù)據(jù)管理職能的關(guān)系:
可以看到數(shù)據(jù)治理貫穿在數(shù)據(jù)管理的整個(gè)過程中,重點(diǎn)關(guān)注的是有關(guān)數(shù)據(jù)的戰(zhàn)略、組織、制度等高層次的話題,并通過制定和推行戰(zhàn)略、組織、制度,將其他幾個(gè)數(shù)據(jù)管理職能貫穿、協(xié)同在一起,讓企業(yè)的數(shù)據(jù)工作能夠成為一個(gè)有機(jī)的整體而不是各自為政。
有關(guān)DataGovernance的中文翻譯,國內(nèi)最常見的翻法有兩種:數(shù)據(jù)治理、數(shù)據(jù)管控。國內(nèi)客戶似乎更喜歡數(shù)據(jù)管控,因?yàn)檫@個(gè)詞有力度、體現(xiàn)權(quán)威。筆者從實(shí)踐層面的體會(huì):治理與管控缺一不可,治理在前、管控在后,治理針對(duì)的是存量數(shù)據(jù),是個(gè)由亂到治、建章立制的過程,而管控針對(duì)的是增量數(shù)據(jù),實(shí)現(xiàn)的是執(zhí)法必嚴(yán)、行不逾矩的約束。
為什么要做數(shù)據(jù)治理?下面是一份國際數(shù)據(jù)質(zhì)量協(xié)會(huì)的調(diào)研結(jié)果可以參考。
從理論上來講數(shù)據(jù)治理主要是三個(gè)目的:保證數(shù)據(jù)的可用性、數(shù)據(jù)質(zhì)量和數(shù)據(jù)安全。而在實(shí)踐層面,國內(nèi)外談到數(shù)據(jù)治理,其主要目的都是數(shù)據(jù)質(zhì)量,對(duì)于數(shù)據(jù)安全,往往是有專門的團(tuán)隊(duì)和管理舉措,從數(shù)據(jù)治理領(lǐng)域涉及的較少。我們下面的討論也繼承這種習(xí)慣,主要探討數(shù)據(jù)質(zhì)量這個(gè)目標(biāo)。
概念探討先告一段落,后面在探討方法和實(shí)踐的時(shí)候,會(huì)反過來對(duì)概念有更好的理解。
二、數(shù)據(jù)治理的方法
在方法部分,主要講三個(gè)內(nèi)容:誰負(fù)責(zé)數(shù)據(jù)治理?治理或者管控對(duì)象是什么?技術(shù)工具有哪些?
2.1組織架構(gòu)
首先來談?wù)l負(fù)責(zé)數(shù)據(jù)治理,也就是組織架構(gòu),先上一張圖。
從理論和國外實(shí)踐來看,大型企業(yè)會(huì)建立企業(yè)級(jí)數(shù)據(jù)治理委員會(huì),有業(yè)務(wù)部門領(lǐng)導(dǎo)、IT部門領(lǐng)導(dǎo)共同參與,讓業(yè)務(wù)與業(yè)務(wù)之間、業(yè)務(wù)與技術(shù)之間能夠有更充分的討論溝通,從而對(duì)宏觀的數(shù)據(jù)戰(zhàn)略、制度達(dá)成共識(shí)。在企業(yè)級(jí)之下,還可以有部門級(jí)、項(xiàng)目級(jí)的委員會(huì),負(fù)責(zé)某些局部的數(shù)據(jù)治理,在最基層面向某一個(gè)業(yè)務(wù)領(lǐng)域應(yīng)該有相應(yīng)的數(shù)據(jù)管理專員(DataSteward)。
Steward實(shí)際上是管家的意思,但翻譯成管家似乎不夠嚴(yán)肅,因此采用了“專員”。Steward一詞與Owner相對(duì)應(yīng),說的是雖然資產(chǎn)不是歸Steward所有,但是他們替Owner代管,由此也衍生出Stewardship一詞,表明代管、托管制度,這里面蘊(yùn)含了一種兢兢業(yè)業(yè)、克己奉公的管家精神,何其難得!數(shù)據(jù)治理委員會(huì)、數(shù)據(jù)管理專員會(huì)制定出一系列數(shù)據(jù)相關(guān)的標(biāo)準(zhǔn)和制度,由數(shù)據(jù)管理服務(wù)組織(DMSO)去執(zhí)行。從圖中可以看到,DMSO實(shí)際上是信息化建設(shè)團(tuán)隊(duì),他們負(fù)責(zé)數(shù)據(jù)倉庫、數(shù)據(jù)集成等技術(shù)平臺(tái)建設(shè)。
上面談的是理論和國外,在國內(nèi)的情況剛好相反,DMSO是主力軍,因?yàn)榇蠹移毡椤爸毓δ堋⑤p數(shù)據(jù),重技術(shù)、輕管理”,絕大部分企業(yè)是缺失左側(cè)的委員會(huì)等管理角色的。據(jù)筆者的經(jīng)驗(yàn),國內(nèi)大型銀行在這方面做得相對(duì)領(lǐng)先,企業(yè)級(jí)數(shù)據(jù)治理委員會(huì)或者專職的部門去推動(dòng)數(shù)據(jù)治理;能源行業(yè)對(duì)數(shù)據(jù)治理的接觸和認(rèn)同程度比較高,開展了不少數(shù)據(jù)治理項(xiàng)目,特別是在主數(shù)據(jù)管理方面。
運(yùn)營商更重視技術(shù)手段,數(shù)據(jù)治理體制機(jī)制有待建設(shè)、健全。整體而言,國內(nèi)在企業(yè)層面成立數(shù)據(jù)治理委員會(huì)的不多,更多是將數(shù)據(jù)治理的工作放在“企業(yè)信息化領(lǐng)導(dǎo)小組”推動(dòng),由信息部門負(fù)責(zé)具體落實(shí)執(zhí)行。而有些企業(yè)雖然信息化水平很高,但信息化建設(shè)未實(shí)現(xiàn)信息部門的歸口管理,這對(duì)數(shù)據(jù)治理的推行帶來了極大挑戰(zhàn),跨部門、跨系統(tǒng)的協(xié)同異常艱難。
2.2 治理/管控對(duì)象
這個(gè)部分主要是筆者個(gè)人實(shí)踐經(jīng)驗(yàn)的總結(jié),可能和國外的一些理論不一樣。個(gè)人總結(jié)為“內(nèi)容管控”和“過程管控”。此處用了管控一詞,體現(xiàn)一些管理的“力道”。
2.2.1內(nèi)容管控
先說內(nèi)容管控,數(shù)據(jù)在信息系統(tǒng)中是以不同形態(tài)體現(xiàn)的,需要將每種形態(tài)管理好,才有可能管好最終的數(shù)據(jù)質(zhì)量。上一張圖來說明:
從宏觀到微觀,數(shù)據(jù)的形態(tài)體現(xiàn)為數(shù)據(jù)架構(gòu)、數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)。
數(shù)據(jù)架構(gòu),包括了數(shù)據(jù)模型(概念模型、邏輯模型)以及數(shù)據(jù)的流轉(zhuǎn)關(guān)系,一般在企業(yè)級(jí)和系統(tǒng)級(jí)會(huì)談數(shù)據(jù)架構(gòu),主要對(duì)企業(yè)數(shù)據(jù)的分類、分布和流轉(zhuǎn)進(jìn)行規(guī)劃、設(shè)計(jì),確保新建系統(tǒng)、新建應(yīng)用能夠與現(xiàn)有系統(tǒng)保持一致和融合,避免產(chǎn)生信息孤島,或者帶來重復(fù)不必要的數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換。
數(shù)據(jù)標(biāo)準(zhǔn),包括了數(shù)據(jù)項(xiàng)、參考數(shù)據(jù)、指標(biāo)等不同形式的標(biāo)準(zhǔn)。舉例來說,“客戶類型”是一個(gè)數(shù)據(jù)項(xiàng),應(yīng)該有統(tǒng)一的業(yè)務(wù)含義,將客戶歸類為大客戶、一般客戶的規(guī)則是什么,數(shù)據(jù)項(xiàng)的取值是幾位長度,有哪些有效值(如01,02,03)等。這方面有國際標(biāo)準(zhǔn)可以參考,如ISO11179,國內(nèi)很多行業(yè)也制定了行業(yè)數(shù)據(jù)標(biāo)準(zhǔn),如電子政務(wù)數(shù)據(jù)元、金融行業(yè)統(tǒng)計(jì)數(shù)據(jù)元等等。共同的問題是,標(biāo)準(zhǔn)定義出來之后,執(zhí)行的情況怎么樣?是否真正落實(shí)到IT系統(tǒng)了?
數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn),包括數(shù)據(jù)質(zhì)量規(guī)則以及稽核模型(即規(guī)則的組合應(yīng)用)。數(shù)據(jù)質(zhì)量規(guī)則一般會(huì)關(guān)注及時(shí)性、準(zhǔn)確性、完整性、一致性、唯一性等,展開來談還有許多內(nèi)容,有的專家整理出12個(gè)數(shù)據(jù)質(zhì)量維度,有定性的也有定量的。
IT部門應(yīng)該牽頭制定并且定期更新企業(yè)級(jí)的數(shù)據(jù)架構(gòu)、數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn),作為新建系統(tǒng)和應(yīng)用的指導(dǎo)約束。值得注意的是,在標(biāo)準(zhǔn)制定的過程中,要避免IT部門的閉門造車,一定要讓業(yè)務(wù)部門充分參與進(jìn)來。
舉一個(gè)例子,筆者個(gè)人作為技術(shù)人員參與一次數(shù)據(jù)架構(gòu)的規(guī)劃,需要設(shè)計(jì)數(shù)據(jù)的流轉(zhuǎn)關(guān)系。筆者發(fā)現(xiàn)從技術(shù)角度看,數(shù)據(jù)從哪流向哪里似乎都是合理的,也都可以有相應(yīng)的工具去支撐,似乎沒有什么可以決策的依據(jù)。其實(shí),這時(shí)就應(yīng)該有業(yè)務(wù)的參與,因?yàn)闃I(yè)務(wù)職能、業(yè)務(wù)流程和業(yè)務(wù)部門間的職能邊界劃分,直接決定了數(shù)據(jù)來源和去向,IT部門更多是從技術(shù)層面考慮具體實(shí)現(xiàn)方案。
2.2.2過程管控
這里談的過程,是指信息系統(tǒng)建設(shè)過程。因?yàn)榻?jīng)過大量的實(shí)踐我們發(fā)現(xiàn),數(shù)據(jù)質(zhì)量不佳主要原因之一是在信息系統(tǒng)建設(shè)的過程中忽視了對(duì)數(shù)據(jù)的管控,這就會(huì)造成數(shù)據(jù)的設(shè)計(jì)與需求不一致,開發(fā)與設(shè)計(jì)不一致,對(duì)數(shù)據(jù)質(zhì)量要求考慮缺失,不同系統(tǒng)對(duì)數(shù)據(jù)的定義和技術(shù)實(shí)現(xiàn)不一致等等諸多問題。等待系統(tǒng)上線后再去解決這些問題,亡羊補(bǔ)牢,消耗資源。
其實(shí),數(shù)據(jù)管理甚至IT行業(yè)都應(yīng)該虛心向傳統(tǒng)行業(yè)學(xué)習(xí)管理理念。比如制造業(yè)的質(zhì)量管理是在產(chǎn)品生產(chǎn)線各個(gè)環(huán)節(jié)進(jìn)行質(zhì)量管控,有些理念也很有啟發(fā):QualityBy Design,質(zhì)量是設(shè)計(jì)出來的,不是檢查出來的;Quality check is a cost not benefit,質(zhì)量檢查是成本而非收益。
筆者公司最近完成了對(duì)工廠化的數(shù)據(jù)生產(chǎn)和管理模式的探索和初步實(shí)踐,運(yùn)行效率、開發(fā)維護(hù)效率和數(shù)據(jù)質(zhì)量都有顯著提升,找機(jī)會(huì)再分享,提供一張效果圖有些感性認(rèn)識(shí)。
下面是過程管控的示意圖:
這張圖的內(nèi)容比較豐富,其核心內(nèi)容是將“內(nèi)容管控”中形成的各項(xiàng)標(biāo)準(zhǔn)規(guī)范注入到通過信息系統(tǒng)建設(shè)的生命周期中,通過對(duì)系統(tǒng)建設(shè)各個(gè)階段交付物的管控確保標(biāo)準(zhǔn)規(guī)范得到遵從,從而保障數(shù)據(jù)的標(biāo)準(zhǔn)化和規(guī)范化。
過程管控一方面依靠開發(fā)管理中的評(píng)審機(jī)制去落實(shí),另一方面就是靠工具去固化一些標(biāo)準(zhǔn)和規(guī)范,做到自動(dòng)化檢查。在系統(tǒng)上線常態(tài)運(yùn)行階段,注重新的數(shù)據(jù)需求和數(shù)據(jù)問題的收集和處理,對(duì)標(biāo)準(zhǔn)規(guī)范進(jìn)行優(yōu)化。
在信息化早期階段ERP、CRM等操作型系統(tǒng)的建設(shè)是以功能和流程為中心,而后期BI、數(shù)據(jù)倉庫、大數(shù)據(jù)平臺(tái)等數(shù)據(jù)分析平臺(tái)的建設(shè)是以數(shù)據(jù)為中心的,這就注定一些傳統(tǒng)方式需要改變,應(yīng)該更加注重對(duì)數(shù)據(jù)架構(gòu)、數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)質(zhì)量的管控,更加關(guān)注數(shù)據(jù)的生命周期,否則數(shù)據(jù)分析平臺(tái)建設(shè)成功的概率不高。
2.2.3技術(shù)工具
下面簡單談?wù)劶夹g(shù)工具。先上一張圖,這是國外對(duì)數(shù)據(jù)治理關(guān)鍵技術(shù)的調(diào)研結(jié)論。
可以看到元數(shù)據(jù)、主數(shù)據(jù)、數(shù)據(jù)質(zhì)量是主要的技術(shù)手段。具體的產(chǎn)品功能不是今天要探討的話題,筆者主要想談一談技術(shù)工具在數(shù)據(jù)治理工作中的定位。與ERP遇到的情況非常類似,國內(nèi)的客戶往往寄望于上一套技術(shù)工具就能包治百病的解決數(shù)據(jù)問題、提升數(shù)據(jù)質(zhì)量。
而實(shí)際情況是,如果前面所說的組織架構(gòu)、內(nèi)容管控、過程管控等管理機(jī)制、技術(shù)標(biāo)準(zhǔn)不到位,僅僅上一套軟件工具,起不到任何效果。以上軟件工具的作用又是什么呢?核心作用在于知識(shí)的固化和提高數(shù)據(jù)治理人員的工作效率。
比如,需要手工編寫程序收集的元數(shù)據(jù),工具幫你自動(dòng)獲取;需要人工識(shí)別或編寫代碼實(shí)現(xiàn)的數(shù)據(jù)質(zhì)量檢查,工具幫你自動(dòng)識(shí)別問題;用文檔管理的數(shù)據(jù)字典,工具幫你在線管理;基于郵件和線下的流程,工具幫你線上自動(dòng)化。
除此之外,數(shù)據(jù)治理的軟件工具與其他軟件工具一樣,沒有什么神奇之處,沒有數(shù)據(jù)治理人員的參與和數(shù)據(jù)治理工作的推進(jìn),軟件也只是看上去很美。這也是為什么數(shù)據(jù)治理咨詢服務(wù)一直有其市場(chǎng),以及為什么國內(nèi)大部分單純數(shù)據(jù)治理軟件項(xiàng)目未能達(dá)到預(yù)期目標(biāo)。
三、數(shù)據(jù)治理的實(shí)踐案例
第一個(gè)案例是運(yùn)營商客戶的系統(tǒng)級(jí)數(shù)據(jù)治理,主要的啟示在于:組織架構(gòu)對(duì)于推動(dòng)數(shù)據(jù)治理的重要性。
運(yùn)營商數(shù)據(jù)倉庫建設(shè)已有多年,對(duì)元數(shù)據(jù)管理和數(shù)據(jù)質(zhì)量管理一直高度重視。數(shù)據(jù)質(zhì)量問題往往是在數(shù)據(jù)倉庫發(fā)現(xiàn)的,而有很大比例問題是由于上游BOSS系統(tǒng)的升級(jí)或者數(shù)據(jù)錯(cuò)誤傳遞到了數(shù)據(jù)倉庫。
例如,推出了新產(chǎn)品但數(shù)據(jù)倉庫中尚未注冊(cè)、SIM卡號(hào)位數(shù)升級(jí)但未通知數(shù)據(jù)倉庫等等。這說明兩個(gè)問題:業(yè)務(wù)人員與分析系統(tǒng)技術(shù)人員協(xié)同不夠;業(yè)務(wù)系統(tǒng)與分析系統(tǒng)協(xié)同不夠。
因此,數(shù)據(jù)倉庫的主管方嘗試從集團(tuán)推動(dòng)BOSS和數(shù)據(jù)倉庫的數(shù)據(jù)質(zhì)量協(xié)同管理,通過幾省試點(diǎn)的方式建立了跨系統(tǒng)的元數(shù)據(jù)血緣圖、數(shù)據(jù)質(zhì)量聯(lián)動(dòng)監(jiān)控等一系列技術(shù)手段去解決問題。
但是,數(shù)據(jù)質(zhì)量協(xié)同管理的工作終于試點(diǎn)、未能全國推廣實(shí)施,其原因主要有三點(diǎn):
組織上,BOSS系統(tǒng)和數(shù)據(jù)倉庫沒有實(shí)現(xiàn)歸口IT管理、是由平級(jí)的兩個(gè)處室管理。
BOSS系統(tǒng)業(yè)務(wù)關(guān)鍵性高于數(shù)據(jù)倉庫。
此工作作為技術(shù)工作發(fā)起,沒有去爭(zhēng)取業(yè)務(wù)部門的支持、參與甚至牽頭。
由此可見,組織架構(gòu)和管理機(jī)制不順暢,會(huì)制約數(shù)據(jù)問題的解決,甚至?xí)頂?shù)據(jù)問題。
第二個(gè)案例是一個(gè)能源行業(yè)客戶企業(yè)級(jí)的數(shù)據(jù)治理,主要的啟示在于:數(shù)據(jù)治理既要大處著眼,更要小處著手,而且要善于找時(shí)機(jī)切入。
該客戶通過信息化規(guī)劃設(shè)計(jì)了企業(yè)級(jí)數(shù)據(jù)架構(gòu),通過主數(shù)據(jù)管理項(xiàng)目經(jīng)過1年時(shí)間建立了企業(yè)級(jí)的主數(shù)據(jù)標(biāo)準(zhǔn)、實(shí)現(xiàn)了不同業(yè)務(wù)部門對(duì)不同領(lǐng)域數(shù)據(jù)認(rèn)責(zé)(即承擔(dān)數(shù)據(jù)管理專員的角色),又通過數(shù)據(jù)管控項(xiàng)目理順了業(yè)務(wù)部門、信息化部門在數(shù)據(jù)管控工作上的職責(zé),在項(xiàng)目管理辦公室PMO設(shè)置了數(shù)據(jù)管控組對(duì)各項(xiàng)目數(shù)據(jù)統(tǒng)一管控,同時(shí)制定了制度、流程和技術(shù)標(biāo)準(zhǔn)。組織、制度和標(biāo)準(zhǔn)上都可謂是到位的,但是技術(shù)標(biāo)準(zhǔn)的落地工作一直不順利。
舉例來說,以ERP為首的套裝軟件實(shí)施團(tuán)隊(duì)對(duì)組織機(jī)構(gòu)主數(shù)據(jù)的標(biāo)準(zhǔn)一直很抵觸,不肯使用8位統(tǒng)一編碼而是使用本地4位編碼。這個(gè)問題的影響在只有ERP系統(tǒng)時(shí)并不明顯,數(shù)據(jù)管控組也無法推動(dòng)8位編碼的應(yīng)用。隨著項(xiàng)目后期非套裝軟件的建設(shè),系統(tǒng)間的集成需求豐富起來,如果不能統(tǒng)一編碼標(biāo)準(zhǔn),系統(tǒng)間無法集成。
這時(shí),非ERP系統(tǒng)都遵從標(biāo)準(zhǔn)使用統(tǒng)一8位編碼,ERP項(xiàng)目組不得不讓步,通過映射表的方式實(shí)現(xiàn)了4位與8位的編碼映射,確保順利集成。由此可見,組織架構(gòu)、管理機(jī)制和技術(shù)標(biāo)準(zhǔn)建立好之后,其推行落地需要找時(shí)機(jī),也需要數(shù)據(jù)治理人員的耐心和智慧,否則只能是紙上談兵。
第三個(gè)案例是美國的一個(gè)案例,主要的啟示在于:小處著手,可以非常非常小,這對(duì)國內(nèi)客戶喜歡大而全的思路是非常有益的互補(bǔ)。
這個(gè)企業(yè)也是受困于數(shù)據(jù)質(zhì)量問題,希望通過數(shù)據(jù)治理來解決。但開始時(shí)并不知道如何實(shí)際操作數(shù)據(jù)治理,所以他們啟動(dòng)了一個(gè)“企業(yè)數(shù)據(jù)定義”的項(xiàng)目:用6個(gè)月的時(shí)間梳理現(xiàn)有系統(tǒng)的數(shù)據(jù)項(xiàng),識(shí)別跨系統(tǒng)、跨業(yè)務(wù)的數(shù)據(jù)項(xiàng)作為數(shù)據(jù)治理的重點(diǎn)。數(shù)據(jù)項(xiàng)梳理完畢后,他們選擇了7個(gè)數(shù)據(jù)項(xiàng)去重點(diǎn)治理。
注意,只有7個(gè)數(shù)據(jù)項(xiàng)哦!國內(nèi)客戶一定會(huì)認(rèn)為7個(gè)太少,不能當(dāng)個(gè)事情來做。但美國這個(gè)企業(yè)就是圍繞這7個(gè)數(shù)據(jù)項(xiàng)去調(diào)研相關(guān)的業(yè)務(wù)用戶,發(fā)現(xiàn)他們的數(shù)據(jù)使用需求和問題,去分析與這些數(shù)據(jù)項(xiàng)相關(guān)的業(yè)務(wù)流程和數(shù)據(jù)流程。后來識(shí)別了40多項(xiàng)可以改進(jìn)的內(nèi)容,也為數(shù)據(jù)治理的全面開展積累經(jīng)驗(yàn),在此基礎(chǔ)上制定了總體規(guī)劃和實(shí)施路線。
四、大數(shù)據(jù)與數(shù)據(jù)治理
終于談到了大數(shù)據(jù)。從前面的討論來看,數(shù)據(jù)治理大的脈絡(luò)并不復(fù)雜:對(duì)數(shù)據(jù)資產(chǎn)家底清晰、管理權(quán)責(zé)分明、建立配套標(biāo)準(zhǔn)規(guī)范、確保落地執(zhí)行,由此去保障數(shù)據(jù)質(zhì)量。雖然大數(shù)據(jù)的規(guī)模大、類型多、速度快,但數(shù)據(jù)治理的原則對(duì)于大數(shù)據(jù)也是同樣適用的。
那么大數(shù)據(jù)的到來會(huì)給數(shù)據(jù)治理提出哪些新的要求呢?
首先來看《大數(shù)據(jù)時(shí)代》的作者的觀點(diǎn)之一,他認(rèn)為在大數(shù)據(jù)時(shí)代數(shù)據(jù)質(zhì)量不再重要,因?yàn)槿藗冃枰氖钦w趨勢(shì)的分析而非精確結(jié)果。個(gè)人不太同意此觀點(diǎn),而是認(rèn)為對(duì)大數(shù)據(jù)而言數(shù)據(jù)質(zhì)量更加重要。
作者提的整體趨勢(shì)分析僅僅是大數(shù)據(jù)的應(yīng)用之一,而從精準(zhǔn)營銷、風(fēng)險(xiǎn)識(shí)別等應(yīng)用場(chǎng)景來看,因?yàn)閿?shù)據(jù)與運(yùn)營結(jié)合的更緊密、要求數(shù)據(jù)粒度更細(xì),任何一點(diǎn)錯(cuò)誤都可能直接帶來業(yè)務(wù)上的損失;而傳統(tǒng)的指標(biāo)應(yīng)用,反而對(duì)運(yùn)營環(huán)節(jié)沒有如此直接的影響。因此,在大數(shù)據(jù)環(huán)境下對(duì)數(shù)據(jù)質(zhì)量的需求是提升而非降低。
其次,Hadoop、Spark等大數(shù)據(jù)技術(shù)的應(yīng)用,對(duì)數(shù)據(jù)治理的技術(shù)手段提出新的要求。傳統(tǒng)模式下基于RDBMS進(jìn)行管理,SQL是通用的數(shù)據(jù)訪問方式。而在大數(shù)據(jù)環(huán)境中,Hadoop、MPP、RDBMS、Spark并存,如何在混搭的異構(gòu)環(huán)境中實(shí)現(xiàn)對(duì)數(shù)據(jù)資產(chǎn)的可視化統(tǒng)一管控,避免大數(shù)據(jù)系統(tǒng)成為不可管理的黑盒子,這是傳統(tǒng)行業(yè)應(yīng)用大數(shù)據(jù)技術(shù)需要面對(duì)的關(guān)鍵問題之一。
特別是大數(shù)據(jù)技術(shù)人才目前更多流向互聯(lián)網(wǎng)企業(yè),進(jìn)入傳統(tǒng)行業(yè)的少之又少,在人才可得性短期不能快速解決的情況下,需要依靠技術(shù)手段來確保傳統(tǒng)企業(yè)IT人員能夠?qū)?shù)據(jù)資產(chǎn)的可視、可控。
第三,數(shù)據(jù)安全,或者說數(shù)據(jù)隱私的重要性比以往有顯著提升,這也需要在數(shù)據(jù)治理中加強(qiáng)對(duì)數(shù)據(jù)安全的重視。在傳統(tǒng)應(yīng)用場(chǎng)景中,數(shù)據(jù)由企業(yè)收集,在企業(yè)內(nèi)部應(yīng)用,數(shù)據(jù)所有權(quán)的問題并不突出。
在大數(shù)據(jù)時(shí)代,數(shù)據(jù)要更多進(jìn)行跨界整合、外部應(yīng)用的商業(yè)模式創(chuàng)新,這其中就涉及到更多數(shù)據(jù)所有權(quán)、數(shù)據(jù)隱私的話題。用戶信息究竟屬于企業(yè)還是用戶、在什么條件下企業(yè)可以拿來用于商業(yè)應(yīng)用?這些問題的答案還在探討當(dāng)中,毋庸置疑的是,企業(yè)需要在數(shù)據(jù)治理過程中,需要更加注意數(shù)據(jù)安全、數(shù)據(jù)隱私相關(guān)的制度和政策。