首先對數據資源進行全面梳理,規劃構建最優化的、具有差別化的、面向應用主題的、貴陽高新區數據資源中心,進而支持實現相應分析目標的數據挖掘、多維數據分析等,主要包含以下五大方面數據資源:
(1)整合以高新區企業為維度的統計口徑的數據,主要以一套表系統數據和火炬系統數據為主,建立高新區企業(被納入統計的)全景視圖;
(2)整合部分其它國家級高新區的相關數據以及火炬計劃年鑒的數據,建立國家級高新區數據資源庫,用于橫向比較等分析研究;
(3)整合必要的外部宏觀經濟數據和區域經濟等數據,形成高新區經濟分析補充數據資源庫,用于相關的分析應用;
(4)整合省市部分相關部門的企業數據源,如:省(市)統計局、省(市)經信委、省(市)發改委、省科技廳、商務廳和市科技局及中關村貴陽科技園等處可以協商采集的相關數據,用于綜合分析園區的經濟發展態勢;
(5)基于精準招商需求,整合相關行業的全量企業數據,并在分析后形成招商對象企業數據庫,服務高新區精準招商。
上述數據源將通過相關系統接口開發導入、數據格式轉換等方式進行自動、半自動的定期加載,形成動態更新的貴陽高新區“經濟氣象”數據資源中心。
其次,高質量的數據是數據分析的基礎,為此數據的產生、收集、清洗、存儲、整合需要一套完整的數據管理體系來支撐。數據管理體系按照數據類型可以分為元數據管理和數據質量管理。
(1)元數據管理是數據質量管理的基礎和先行條件。元數據可以簡單理解為數據的標準。確立統一的數據統計口徑標準,構建全面、豐富的數據指標體系。形成一系列面向應用的可更新的綜合分析專題數據庫。通過元數據管理可以很大程度上從源頭杜絕問題數據的產生。
(2)數據質量是數據分析的基礎,為此需要結合具體數據質量問題,制定嚴密的數據質量校核方案。為了保證數據的可靠性和可用性,在使用數據前必須要對每個準備應用的數據項做數據質量評估,并通過數據質量監控,進行問題數據追溯和問題數據處理。
數量質量校核是針對目前園區數據管理中存在的數據質量問題,例如完整性、一致性、準確性、規范性等問題,整合數據倉庫、數據分析、數據挖掘、可視化展現以及工作流等多項信息技術,將結合客戶的業務規則,設計并開發數據質量完整性模型、規范性模型、準確性模型、離群值模型、孤立點探測模型等,實現對業務數據的全面、專業、高效的數據質量校核與監控。具體實施步驟如下:
①數據質量模型設計可視化:可視化操作,降低業務人員技術門檻;
②數據管理校核任務流程化:采用工作流管理模式,可方便進行模型間的組合形成工作流,同時對該工作流的調度管理按照任務管理模型進行,方便易用;
③問題數據追溯智能化:對于問題數據按照業務歸屬自動推送到相關業務歸口單位,實現智能推送,閉環管理業務流程;
④標準六大業務模塊:數據質量評價模塊、問題追溯模塊、模型管理模塊、可視化展現模型、數據質量分析模塊、任務管理模塊。
數據倉庫設計及實現
(1)數據倉庫規劃及存儲模型搭建
數據倉庫的建設是一個戰略性工程,它將直接影響到數據驅動的全新管理模式的未來發展。能否成功地建立管理信息系統并發揮其作用,關鍵在于數據倉庫的設計和建設的速度及質量。所以在設計開發數據倉庫時應遵循前瞻性、實用性、安全性、可信性和科學易用性等特點。
(2)ETL設計與實現
數據倉庫的數據來源于業務處理系統,但是數據倉庫的數據并不是對源系統數據的簡單疊加,它需要按照數據倉庫的邏輯模型和物理模型,在源系統數據分析的基礎上,按照源系統數據和數據倉庫數據之間的映射關系,經過數據的抽取(Extraction)、轉換 (Transformation)和加載(Loading)等環節方可進入數據倉庫,這個過程簡稱為ETL處理。
ETL是搭建數據倉庫數據平臺的基礎,也是保證數據倉庫的數據質量的具體實現。基于數據倉庫項目開發的經驗,在大多數據倉庫的實施過程當中,ETL都是一個非常復雜、耗時的過程,其工作量約占整個數據倉庫項目的40-50%,占數據倉庫設計階段工作量的70-80
%,有許多原因影響這一階段的時間和進度,比如對原有業務系統和舊的操作環境的了解有限,原系統文檔不全等,使得ETL任務在了解舊的業務應用以及如何抽取數據上花費了較多的時間。ETL實施困難的另一個原因是原有的系統平臺沒有足夠的容量/系統資源來支持數據抽取處理,系統資源不足可能表現為:CPU、磁盤空間、I/O帶寬或沒有一個有效的窗口去運行抽取、轉換程序。
ETL過程不僅工作量大,而且還受到很多時間窗口的限制,它不僅需要在不同的特定(非確定)的時間抽取數據,而且還必須要在特定的時間范圍內把數據加載到數據倉庫。由于ETL過程是數據倉庫應用系統每天都要進行的工作, 所以ETL設計的科學性和效率性是非常重要的,ETL設計的好壞關系到數據倉庫項目的成敗。