欧美激情一区二区三区在线-精品国产一区二区av麻豆不卡-精品国产v无码大片在线看-成人五月网

檢驗檢測信息管理: 400-686-4199 數據資產管理: 400-643-4668 供應鏈管理: 400-629-4066

有了Ta,數據清洗 so easy!

2020-01-08

主數據來源于多個業(yè)務系統(tǒng)且包含大量歷史數據,不可避免地存在錯誤、沖突的數據,這些錯誤的或有沖突的數據就是 "臟數據"。

數據清洗顧名思義就是對“臟數據”進行清洗,是對主數據進行重新審查和校驗的過程,包括檢查主數據一致性、處理無效值和缺失值等,是發(fā)現(xiàn)并糾正主數據文件中可識別錯誤的最后一道程序。

數據清洗按照一定的規(guī)則把零散、重復、不完整的主數據清洗干凈,得到精確、完整、一致、有效、唯一的主數據,從而提高主數據質量。

數據清洗是一個費時費力但又必不可少的工作。在數據清洗過程中,三維天地將根據客戶的需求制定清洗方案。

主數據清洗方案一般有兩種:

線下清洗

先對主數據進行清洗,導入系統(tǒng)后,系統(tǒng)再上線使用。在數據量不多的情況下,可以直接對數據進行清洗,對常見的幾種數據問題進行逐一排查清洗,具體步驟如下:

第一步:對重復的主數據進行去重;

第二步:對空值進行補充;

第三步:按照主數據標準,對引用值不規(guī)范的數據進行統(tǒng)一調整;

第四步:調整主數據值的格式與標準一致;

第五步:刪除冗余數據;

第六步:檢查主數據中與標準不一致的數據項進行逐一調整。

一般情況,線下數據清洗是一個非常龐大的工作,數據質量越差,清洗的工作量就會越大。

為了提高工作效率,三維天地提供清洗工具來輔助清洗工作。既第二種數據清洗方式——線上數據清洗。

線上清洗

線上數據清洗先將初始化數據遷移到系統(tǒng)中,系統(tǒng)上線以后,建立數據清洗模型再對數據進行清洗。具體步驟如下:

第一步:清洗模型申請。新增一個清洗模型,選擇模型編碼,填寫關聯(lián)相似度及警告相似度。

第二步:配置清洗模型的顯示列。選擇需要參與清洗對比的列選項(參與相似對比的列必須啟用,且只能是在全文檢索索引設置中啟用),保存成功并提交清洗模型。

第三步:審核清洗模型。審核成功的清洗模型可進行清洗操作。

清洗模型建好后,將要清洗的數據關聯(lián)到清洗模型中,根據清洗模型和數據標準對數據進行清洗。大量主數據清洗時,可以劃分階段進行,保證數據清洗范圍可控,不影響系統(tǒng)及相關業(yè)務系統(tǒng)的使用。劃分原則可參考數據的申請時間、業(yè)務發(fā)生時間段、是否有庫存等。

數據清洗過程中往往會出現(xiàn)很多判斷問題,如:數據是否合乎標準,是否存在錯誤等,這些都可以通過相應算法實現(xiàn)判斷。通過主數據清洗,可以保證主數據的唯一性、精確性、完整性、一致性、有效性,為各個應用系統(tǒng)以及后續(xù)的分析決策提供高質量的數據保障。

三維天地作為業(yè)界領先的信息標準化管理解決方案供應商,致力于為客戶提供全方位高質量的信息標準化管理服務。從客戶的實際需求出發(fā),以先進的技術和定制化的服務贏得客戶的信任和支持。使信息標準化管理得到更全面的推廣,讓更多的企業(yè)體會信息標準化管理的魅力,共創(chuàng)信息化管理新時代。