【行業資訊】工業數字化轉型中的數據治理
發布時間:2022-05-17 文章來源:鴻宇科技 瀏覽次數:1142
隨著數據資源的爆炸性增長,企業面臨著數據標準不統一、數據信息分散、數據質量參差不齊、開發維護困難等問題,很難滿足實時分析和決策的高要求。因此,數據治理對于工業互聯網的發展至關重要。
數據治理發展現狀
1.1 數據治理的相關概念
數據治理是組織中對數據使用和管護的管理行為,其本質是指導、評估和監督數據的管理和利用,通過制定數據標準體系,提高數據的質量,并為組織提供不斷創新的數據服務,以提高數據的價值密度。數據治理內容主要包括元數據管理、主數據管理、數據標準管理、數據質量管理、數據生命周期管理、數據組織、數據安全和數據服務等模塊,不同模塊功能明確、相互協同,共同打造統一調度、精準服務、安全可用的信息共享服務體系。
1.2 數據治理的發展歷史
數據治理的發展歷史可分為三個階段。第一階段為早期探索階段,1988年麻省理工學院啟動的全面數據質量管理計劃形成了數據治理的雛形。同年,國際數據管理組織協會(DAMA)成立。2002年,數據治理概念在學術界嶄露頭角,美國兩位學者結合兩家公司的實踐結果提出數據治理研究方向,由此拉開了數據治理在企業管理中的大幕。第二階段為理論研究階段,2003年國際數據治理研究所成立,主要研究數據治理理論框架,與國際標準化組織合作對數據治理進行定義。2009年,DAMA發布數據管理知識體系指南,基本確定數據治理的理論框架。第三階段為廣泛接受與應用階段,隨著數據倉庫的建設,國內也逐步開始接受數據治理的理念,并在2015年提出了《數據治理白皮書》國際標準研究報告。
2020以來,數據治理在公共管理、科學研究與工商業等領域得到廣泛應用,以數據為核心的“互聯網+”體系日益彰顯數據治理的價值,為進一步推動數據治理的發展,美國、歐盟紛紛頒布圍繞數據使用與保護的公共政策。我國也相繼出臺了《中國制造2025》《關于深化“互聯網+先進制造業”發展工業互聯網的指導意見》等相關政策以促進工業互聯網發展,進一步體現了工業數據治理的必要性。
1.3 工業數據治理探索
工業生產制造主要包括設備故障預警、異常實時告警、異常回溯、產品穩定性和生產效率優化等業務場景。隨著智能制造、工業互聯網等戰略政策的深入推進,工業企業積累了大量的數據,為不同業務場景下的數據分析提供高質量的數據接口,使得開展工業數據治理成為核心問題。本文將以工業數據為核心,以數據治理為方法,以業務應用為目的,構建面向工業生產制造的數據治理體系,并通過案例實踐驗證數據治理的成效。
工業數據治理體系
2.1 工業數據態勢
2.1.1 工業數據來源
工業數據可劃分為操作技術數據(OT)和信息技術數據(IT)。OT數據是工業數據的主要部分,源自工業生產機器設備、自動化采集系統等,包含時序數據和非時序數據。時序數據包括溫度、壓力、流量等數據。非時序數據包括工業系統的日志數據以及生產調控的經驗數據。IT數據主要包括企業資源計劃(ERP)、制造執行系統(MES)等業務數據。其中ERP系統主要包括財務、客戶關系、供應鏈管理等數據,MES系統位于上層ERP層與底層控制層之間,主要包括生產調度、質量管理、人員管理等數據。
2.1.2 工業數據特點
“隔離性”。工業數據來自多道工序的多臺設備,設備獨立工作以及工序間數據互不流通,形成一座座“數據孤島”。
“多模態”。工業數據來源多樣,結構復雜。除工業生產中所采集的溫度、壓力、流量等時序數據之外,還包括檢測火焰溫度等的紅外熱成像視頻數據。
“強關聯”。工業數據中的關聯主要包括:生產指標間的關聯,如原料燃料流量、溫度、壓力的關聯;生產過程的關聯,如生產工序間的工藝參數關聯關系;產品設計制造等環節之間的關聯,如仿真過程與產品實際工況間的關聯。
“高通量”。傳感器所采集的時序數據具有設備多、測點多、頻率高、吞吐量大、連續不間斷的特點。以某工業生產設備為例,數據采樣頻率為10Hz,單臺設備每秒產生16KB的傳感器數據,按20臺設備全量采集計算,每日將產生約12.87GB的數據,每年將產生4.58TB的數據,呈現出“高通量”的特征。數據帶來巨大的存儲成本,還存在銜接不連貫、標準不統一、數據不對齊、“臟”數據等質量問題,無法為數據分析提供有效接口,如何提升數據價值密度、提高數據挖掘效率是現階段亟待解決的問題。
2.2 工業數據治理體系研究
2.2.1 頂層框架設計
數據治理是工業數字化轉型之路的關鍵,數據治理工作的落地有助于提升數據價值密度、提高數據挖掘效率,更好服務靈活多變的業務場景,為數據分析提供有效接口。目前,數據治理體系的研究相當成熟,可適應于不同的應用場景。本文在借鑒通用數據治理體系的基礎上,結合工業數據的數據源、數據特點及業務場景等核心要素,搭建面向工業生產的數據治理體系,如圖1所示。
圖 1 數據治理體系框架
為保證數據資產不流失,對源數據和分析數據進行物理隔離,源數據按照原始格式保留存儲在本地服務器中,分析數據則經過數據治理后進行存儲,對非必要數據進行歸檔或銷毀。該數據治理體系框架囊括元數據管理、主數據管理、數據標準管理、數據質量管理、數據生命周期管理、數據組織、數據安全及數據服務環節,環節間相互協同和依賴,形成全方位、多層次、多角度的數據治理框架。
2.2.2 元數據管理
元數據的定義是“關于數據的數據”,元數據反映了數據的交易、事件、對象和關系等。通過元數據管理可繪制數據地圖、統一數據口徑、標明數據方位、分析數據關系以及精確到字段級別的影響分析,方便數據的跟蹤和回溯。
圖 2 工業元數據管理
在工業領域中,元數據主要包括技術元數據和業務元數據,如圖2所示。其中技術元數據具體為:物理資源的元數據(服務器、操作系統等)、數據源元數據(網關地址等)、存儲元數據(指標說明、數據結構、存儲屬性、管理屬性等)、共享元數據(接口方式、格式等)等方面;業務元數據具體為:模型元數據(特征工程、評估標準等)、分析元數據(業務流程、業務規則等)方面。基于工業元數據管理,可構建元模型進行元數據自動化采集,實現企業信息化資產梳理、數據地圖、數據血緣分析等功能。
2.2.3 主數據管理
主數據是指滿足跨部門、跨業務協同需要的系統共享數據,在各個業務部門中被重復使用,如客戶、供應商、資產、產品、物料單、賬戶等數據。工業主數據管理流程由業務治理、標準治理、質量治理組成,如圖3所示。
圖3工業主數據管理
在工業制造領域中,主數據結合物聯網數據可以實現不同的業務場景需求。例如,若要了解或預測物料的庫存情況以提高生產調度效率,可將原料消耗的傳感器數據與物料單主數據進行關聯分析,從而感知到物料的庫存情況。因此,通過將高價值、高共享、相對穩定的主數據與物聯網數據相關聯,結合機器學習、深度學習等算法,可實時評估企業的生產運營情況以做針對性的調整。
2.2.4 數據標準管理
數據標準管理的目標是設計一套標準體系,包括數據質量標準、數據操作標準、數據應用標準,形成一個可流通、可共享的信息平臺。數據標準主要由業務定義、技術定義和管理信息三部分構成,業務定義包括業務、名稱和接口等方面的定義,技術定義包括數據類型、數據結構等方面的定義,管理信息包括所有者、管理人員等方面的定義,如圖4所示。
圖4 工業數據標準管理
在工業制造領域中,大數據標準一般以業界的標準為基礎,如元數據管理標準(ISO-11179,CWM,DCMI)、數據質量標準(ISO-8000,ISO-25012)以及數據安全標準(ISO-27001),結合工業數據的特點對數據進行規范化,一般會包括數據格式、數據質量、數據語義、編碼規則、字典值等內容,減少數據孤島、流轉不暢、應用繁瑣等問題的發生。
2.2.5數據質量管理
數據質量管理是工業數據治理的關鍵,是數據應用的前提,為企業風險把控、分析決策、生產運營提供更精準的高質量數據,提升工業數據分析的效率。工業數據質量管理如圖5所示。
圖5 工業數據質量管理
傳統的質量評估體系過于繁雜,結合工業數據和業務場景,基于完整性、準確性、規范性、唯一性、一致性、關聯性、可追溯性等構建合理的數據質量評估體系,并根據工業實際生產情況,對質量評估體系細化:
(1)生產控制數據:生產控制指標若出現不完整、不一致等問題,或導致異常調控不及時等情況發生。因此,對生產控制指標的數據質量管理提高優先級,保障生產流程的正常運轉。
(2)傳感器數據:傳感器數據監測生產過程中的運作情況,可實時感知生產異常,并及時優化調整。因此,要提高傳感器數據接入的及時性、一致性。
(3)故障記錄數據:為保證生產設備的穩定運轉,需要對設備故障記錄進行分析診斷,因此需要保證設備故障記錄數據的可靠性和可追溯性。
(4)庫存物流數據:庫存物流管理是生產、計劃和控制的基礎。通過保證庫存物流數據的及時性和完整性,能夠優化生產周期,保證生產的良性循環。
2.2.6 數據生命周期管理
采用科學的數據生命周期管理能夠提高系統運行效率,大幅減少數據儲存成本,更好服務客戶需求。數據生命周期包含在線階段、歸檔階段、銷毀階段三大階段,如圖6所示。
圖6 工業數據生命周期管理
本文對工業領域的各應用系統數據進行提煉和分類,在數據生命周期的各個階段制定有效的管理策略。首先,將光工業應用系統按產品線進行劃分,確定數據類別,規定數據有效期,從而建立完整的數據有效期管理工作規范體系。然后,針對長有效期數據,在有效期結束后采用低成本存儲介質保存,采用在線和離線的方式逐步歸檔數據。最后,銷毀冗余數據,節約數據存儲資源。可以看出,數據生命周期管理能夠大幅提升高價值數據的查詢效率,同時減少高價格的存儲介質的采購成本。
2.2.7 數據組織
數據組織的目的是根據數據應用需求,采用標準統一、流程規范的方案分類構建數據資源庫,進一步強化大數據內部關聯。數據組織主要包括原始庫、知識庫、主題庫等。
(1)原始庫:原始庫保存原始業務場景數據。工業原始數據主要包括設備監測數據、生產流程記錄、產品檢驗數據、生產異常數據及生產運營數據等。
(2)知識庫:知識庫指工業領域的業務經驗數據和規則方法集合,包括數據接入、處理、服務以及工業通用模型所涉及的知識性數據和規則方法。工業知識庫主要包括原料特性、設備參數、產品設計、生產原理、行業動態等。
(3)主題庫:主題庫對原始數據和資源數據根據分析和服務的目的進行劃分,形成不同主題的數據集合。工業數據主題庫主要包括人員主題庫、設備主題庫、原料主題庫、生產方法庫、生產環境庫等。
2.2.8數據安全
工業生產中的重要且敏感數據大部分集中在應用系統中,例如原料配方、控制策略等工藝參數數據,以及客戶信息、生產計劃、資產信息等生產運營數據,敏感數據泄露對企業的影響是不可逆的,凸顯出數據安全在數據治理過程中的重要性。數據安全包括以下三點:
(1)數據存儲安全:包括物理安全、系統安全存儲數據的安全,主要通過安全硬件的采購來保障數據存儲安全。
(2)數據傳輸安全:包括數據加密和數據網絡安全控制,通過專業數據安全廠商提供技術保障。
(3)數據使用安全:基于業務系統層面,建立完善的數據安全管理體系、審查機制。對生產及研發測試過程中使用的各類敏感數據進行嚴密管理。
2.2.9 數據服務
數據治理是為了更好地利用數據,是數據應用的基礎。基于工業領域的業務需求,大體劃分為三個方向:應用支撐、工具應用及業務應用。應用支撐服務包括知識圖譜構建、數據服務總線和服務管理等服務類型;工具應用服務包括生產查詢檢索服務、模型分析服務和數據管理服務等服務類型;業務應用服務包括產品溯源、異常預警和可視化大屏等服務類型。通過對海量數據的集中、整合、挖掘和共享,結合全方位、多層次的數據服務體系,增強了異常處理的實時性和前瞻性,推動工業向信息化、智能化轉型。
工業數字化之數據治理實踐
本文基于工業數據治理體系,以光纖生產為背景,探索工業數據治理在光纖生產領域的應用實踐。采用大數據分布式架構實現對數據的采集、清洗、存儲。構建數據地圖并進行數據血緣分析,采用智能算法實現數據對齊、生產異常自動識別與預警。對比了數據治理前后產品數據分析的優化效果,搭建了數字化大屏,呈現可視化的數據治理成效,最后總結了數據治理為光纖生產帶來的產品質量和效率的提升。
3.1 數據地圖
數據地圖的構建屬于數據治理中的元數據管理環節。光纖工業的數據來源廣,數量多,分散性強。傳統的數據管理方式查找數據的成本較高。通過大數據采集存儲技術,追蹤從上游產品光纖預制棒至下游產品光纜的各項生產環節的原料、工況、質量等相關數據,能夠實現數據串聯,打通數據孤島。數據地圖如圖7所示。
圖7 數據地圖
經過數據治理之后,在對光纜成品進行質量分析時,分析人員能夠利用數據地圖進行數據血緣分析,跟蹤數據來源并分析任務依賴,輕松追溯到上游生產中的光纖拉絲、光纖預制棒生產環節的相關數據,而不僅僅局限于當前的生產環節,從而獲得更有價值的分析結果。
3.2 數據對齊
數據對齊屬于數據治理中的數據質量管理環節。以光纖預制棒的制造為例,由于預制棒在生產過程中發生了多次形變,后期預制棒測試數據無法與前期傳感器記錄的生產數據相對應。為了展開后續的質量分析研判工作,需要將測試數據與生產數據對齊。
通過對預制棒生產過程中的棒體尺寸數據等記錄數據,采用膨脹點映射等智能算法對預制棒收縮和拉伸的過程進行建模還原,能夠實現各個測試點位與生產時間段的對應,提升數據質量豐富數據量的同時,為后續人工智能建模分析打下良好基礎。
圖 8 數據對齊前后建模誤差對比
圖8展示了數據對齊前后預制棒BA比(芯層直徑與包層直徑之比)的建模預測誤差率,曲線越靠下表示預測誤差越低。可以看出,經過數據治理后,同樣樣本量下,由于數據對齊后能夠進行測點分段映射,擴充了模型訓練數據,使得基于隨機森林的回歸預測模型建模預測誤差率明顯降低。
3.3 異常識別與預警
傳統異常告警機制具有告警模型單一,人工識別工作量大等缺陷,人工標注效率較低,而且誤標、漏標率較高。光纖工業的常見異常類型包括脈沖型異常,階躍型異常以及模式異常,基于大量數據采用時序差分特征和時間窗統計特征構建的時間序列異常識別模型,能夠實現復雜環境下的異常告警需求,同時極大提高歷史異常識別效率,原本進行數據的收集、整理,再人工對異常進行標注的工作需要花費數天時間,通過數據治理集成異常識別模型后,只需要花費幾分鐘的時間即可完成歷史異常的識別和分析。
3.4 數據分析周期優化
在光纖工業中,針對產品品質的數據分析是生產過程中的重要環節,需要不斷通過分析確定工藝參數的調整方向,以此改善生產品質,保證生產穩定性。
開展數據治理前,數據分析的周期長、工作量大,分析的數據量也比較有限。在實施數據治理之后,采用云端采集和在線分析,代替過去手動采集和離線分析的方式,同時保證了數據的準確性和完整性,大大減少分析人員在繁瑣的數據預處理任務中耗費的時間。數據治理前后對比如表1所示。
表1 數據治理前后對比
云端采集在線分析的方式能夠避免數據的二次傳輸,同時能夠利用服務器資源輔以定制化的數據分析工具產出分析結果,有效提高數據分析效率,數據分析周期由原來的3~7天縮短到了現在的當日產生數據,當日產出分析結果。在未來,將實現采集即服務,分析即服務的分析模式,保證數據高質量的同時實現毫秒級的數據分析反饋。
3.5 數字化大屏
將數據治理工作通過可視化方式展現,直觀體現數據治理成果,提供企業運營、生產狀況、產品畫像等主題的大展示,實時呈現光纖工業生產運營狀況,如圖9所示。
圖 9 數字化大屏
企業運營大屏展現了企業光棒、光纖、光纜的原料、生產、檢驗、倉儲、銷售等關鍵環節的信息。
生產狀況大屏通過綜合產量、良品率、穩定性、資源消耗等多方面因素建立的分析模型為產線評分,直觀展現產線整體情況。
產品畫像大屏基于歷史生產數據、質量測試數據構建產品畫像,以質量數據為導向回溯生產數據,量化展示產品質量差異的原因。
3.6 產品質量與效率提升
目前,企業在光纖預制棒、光纖拉絲中有諸多方面的提升,如表2所示。其中在光纖預制棒階段,生產過程中內部形成雜質和氣泡,會嚴重影響后續光纖拉絲過程。經數據治理后,數據質量提高,通過數據分析與建模,不斷優化生產工藝,有效降低預制棒的氣泡缺陷率,改善光纖預制棒的均勻性和重復性,良品率大幅度提升,達到投產門檻;在光纖拉絲階段,在拉絲提速、塔斷及告警反饋等方面的業務痛點方面有明顯的改善,拉絲良品率有效提升。
表2 產品質量與效率提升
結論
本文介紹了數據治理的發展現狀,分析了工業數據的特點,構建了一套面向工業的數據治理體系,并結合數據治理應用案例驗證數據治理的成效。以光纖生產為背景,應用案例表明,該工業數據治理體系作為工業數字化轉型的支撐點,能夠極大簡化數據管理流程,減少人工工作量,提高數據價值密度,提升數據挖掘效率,為不同的業務分析場景提供高質量的數據接口,有效推動企業向數字化、智能化發展。
原文刊載于《信息技術與網絡安全》2022 年 第 4 期 作者:汪洋 王柯張 桃寧韓蕊 彭艷兵 湯國強