六個維度幫你檢測資料品質 Data Quality

在建置一個完整的數據庫過程中,一定會經過「資料清洗 Data Cleansing」的階段,它的首要任務就是確保庫內良好的「資料品質 Data Quality」!只有確保了資料品質,才能讓整個資料結構與運算邏輯發揮它的最大功效。

利用本文所述的六個資料檢測維度,我們可以算出資料整體的健康程度(分數),便於讓企業掌握資料庫的品質。

六大檢測維度

1. 完整度
在檢查資料健康度時,我們必須先關注資料的完整度,確認原先設計好的資料欄位是否都有值。想像,如果沒有「客戶組織層級」或「客戶產業資訊」的紀錄,企業便無法找到向上銷售(Upsell)的機會,使我們無法提供進階的產品服務。

Solution:

  • 列出商務使用上重要的資料欄位,並定期將這些重要的資料欄位跑出「欄位空白占比」的報表。若占比太高,表示資料完整性不高。
  • 必要時,在系統上設置「此欄位為必填」才可新建資料。

2. 準確度
資料的完整性是不夠的,我們還必須確認它們的準確度。畢竟,這些冷冰冰資料的意義就在於,它們能準確地解釋現實的問題。

Solution:

  • 將資料與信任的來源做對比。
  • 每過一段時間便需要人工檢查資料準確性。

3. 資料年齡
資料不是越老越好,而是越新越好。企業需要隨時確保自己的資料年齡是足以應付快速變遷的商務挑戰。想像,企業在「客戶偏好」紀錄上記載了客戶當下的需求,過了一段時間後,他們的需求已有所改變,企業卻用原先的產品策略去攻佔這些客戶市場,是不是反而違背原先的美意?

Solution:

  • 定期篩選出超過90天(時間自訂)未修改的資料,一一檢視之。
  • 運算出超過90天未修改的資料佔總資料數的佔比(%),並訂定符合商務需求的指標以做健康評估。

4. 一致性
再來我們必須檢視資料的一致性來避免相同意義的紀錄以不同形式、拼法、語種呈現。想像,我們今天想針對「銷售區域」位於洛杉磯的客戶做EDM電郵行銷,卻發現這個欄位上出現了「洛杉磯」、「洛城」、「LA」、「L.A.」、「Los Angeles」、「Los Angeles City」,是否令人感到厭煩?

Solution:

  • 將應該被規範的資料欄位做分析,找出一個相同意義的值有多少不同的形式。
  • 必要時,將該資料欄位設置為可下拉的「選項清單 Picklist」,並定義好裡面的值。或是規範好欄位資料一定的格式,如:數值必須輸入至小數點後兩位,日期必須按照年/月/日來輸入。

5. 重複性
重複出現的資料,將會導致企業運營效率降低。因此,我們必須確保所有資料都是非重複的。

Solution:

  • 透過設定「通用唯一辨識碼 UUID」,來辨別資料是否已重複。例如:針對「客戶手機號碼」欄位做唯一辨識,若相同的手機號已存在資料庫中,便不得再次新建。

6. 使用性
當資料經過層層關卡的健康檢查後,企業主們還是必須確定他們到底有沒有被使用?畢竟花了這麼多錢打造的資料庫不是拿來擺著好看的。(實際上也擺不出來…)

Solution:

  • 定期回顧企業使用資料庫的策略,是否全面且有效地在運用這些資料呢?

結論

  • 首先,企業必須全盤思考自身的商務需求,利用「樹狀圖」的方式將這些商務需求細分再細分。
  • 再來,針對不同類別的需求(不同分支的需求)找出是否能使用資料庫相對應的功能模塊?若是,則設計出相對應的資料庫使用方式。

發表迴響

error: Content is protected !!
Close Bitnami banner
Bitnami