Aplikasi yang dapat melakukan ini masuk ke dalam kategori data quality, contohnya Microsoft Data Quality Service (DQS), IBM Infosphere QualityStage, Oracle Enterprise Data Quality, dan DataQualitix.
Meskipun sudah ada aplikasi pemroses data di atas, masih ada beberapa tantangan pembersihan data. Pertama, kamus data masih perlu dikumpulkan oleh para pemilik data, kecuali beberapa pemain lokal yang sudah terbiasa dengan proyek data quality--biasanya sudah menyediakan kamus data ini.
Kedua, penemuan data tidak sampai 100 persen. Biasanya berkisar dari 30 persen sampai dengan 80 persen. Variasi ini sangat tergantung data, algoritma dan template konfigurasi pencocokan.
Namun secara umum, manfaat yang didapatkan akan lebih besar daripada tantangan yang dihadapi.
Dengan keberhasilan melakukan data cleansing, maka organisasi bisa percaya diri menerapkan big data dengan predictive analytic dan machine learning yang semakin tren karena memungkinkan bisnis mendapatkan revenue lebih.
Dari contoh di atas, dapat dipahami bahwa data ganda adalah masalah yang umum terjadi, tetapi bisa menimbulkan kerugian besar, baik untuk organisasi pelayanan publik maupun perusahaan swasta.
Kerugian yang ditimbulkan bisa bervariasi, mulai dari tidak bisa mendapatkan laporan analisis yang tepat sampai berhentinya operasi bisnis karena tidak mampu melakukan rekonsiliasi data yang benar di sana-sini.
Penyebab dari masalah ini adalah tidak standarnya penulisan karena human error, validasi sistem yang tidak mumpuni atau terkena kompromi, migrasi ataupun merger sistem.
Solusi dari masalah tersebut adalah melakukan data cleansing dengan perangkat lunak yang mampu melakukan standarisasi dan pencocokan data (matching data) dengan cerdas dan cepat.
Itu dilakukan sedini mungkin sebelum data akhirnya menggunung dan malah menyulitkan organisasi bisnis itu sendiri.
Feris Thia
Content Principle DQLab.id, Founder PHI-Integration