Data ganda ini biasanya terjadi akibat penulisan yang tidak standar dan lolos pengecekan atau validasi pada sistem, baik karena human error, sistem validasi sistem yang masih tidak mampu mendeteksi, atau bahkan karena merger (penggabungan) dari berbagai sistem.
Taruhlah contoh, andaikan kita memiliki sistem pendataan untuk memasukkan data profil orang berisi nama, alamat, tempat dan tanggal lahir.
Data yang diperoleh bisa saja memunculkan beberapa nama yang tampak berbeda, padahal sebetulnya satu orang yang sama.
Bisa juga ada beberapa data dengan nama orang yang sama, tetapi alamat dan tempat lahirnya beda cara penulisan.
Sistem entri yang ada di pasaran saat ini--apalagi dengan program spreadsheet untuk kegunaan umum, seperti Microsoft Excel--tidak akan mampu mendeteksi hal ini.
Jika perusahaan atau organisasi memiliki beberapa sistem, pendataan bisa berpotensi tidak standar seperti contoh di atas. Di situ penulisan data tidak standar, satu data tanggal lahir juga kosong.
Bayangkan jika empat data ini ada di tumpukan ratusan, ribuan, bahkan jutaan data. Bagaimana cara menemukan data tersebut? Hal ini akan memakan waktu lama sekali, bahkan bisa dikatakan tidak mungkin.
Apa solusinya?
Pada umumnya, perusahaan atau organisasi akan mencoba melakukan pencocokan data ini secara manual dengan aplikasi spreadsheet. Namun, hal ini tidak membantu banyak karena data tidak akan ketemu juga.
Bayangkan beban para staf yang menangani data ini, selain melelahkan, juga tidak akan bisa produktif ke hal lain, seperti analisis data.
Solusi dari data ganda ini adalah perangkat lunak yang dapat melakukan dua hal sekaligus. Hal pertama adalah mampu melakukan standarisasi data dengan cerdas dengan dilengkapi kamus data yang lengkap untuk bahasa Indonesia.
Yang kedua, melakukan pencocokan data dengan sangat cerdas dan cepat, 50.000 kali lebih cepat dibanding pencocokan manual.
Contoh standardisasi antara lain mengubah standar alamat "jln", "jalan", dan "jl." menjadi "jalan". Adapun pencocokan data misalnya menganggap sama/cocok nama "Siti Aminah" dan "Aminah Siti", begitu juga "Siti Aminah S.Kom" dan "Siti Aminah Skom". Pencocokan ini biasanya memiliki skor kemiripan data.
Kedua proses di atas sering disebut dengan data cleansing (proses pembersihan atau perbaikan data).