Data Ganda, "Hantu" Berbahaya dalam Bisnis - Kompas.com

Data Ganda, "Hantu" Berbahaya dalam Bisnis

Kompas.com - 14/09/2018, 19:49 WIB
IlustrasiRAWPIXEL.com via PEXELS.com Ilustrasi

Oleh: Feris Thia

BERITA tentang adanya jutaan data pemilih yang terindikasi ganda untuk Pemilu 2019 sebagaimana dihimpun Komisi Pemilihan Umum (KPU) tengah ramai diperbincangkan.

Atas permasalahan itu, saat ini KPU sedang bekerja keras untuk membersihkan data ganda tersebut karena jelas akan berdampak saat Pemilu 2019. Pembersihan data ini seolah membuat KPU harus melakukan kerja dua kali.

Tidak hanya dihadapi oleh KPU, fenomena data ganda ini juga sebenarnya umum terjadi dan menghantui banyak perusahaan dan organisasi di seluruh dunia.

Kok bisa? Bagaimana sampai bisa terjadi data ganda?

Data ganda atau data duplikat adalah kondisi di mana data entitas yang seharusnya sama, tetapi tercatat lebih dari satu kali.

Data seperti itu bisa diakibatkan banyak hal, mulai dari rancangan sistem entri yang tidak memiliki validasi rigid hingga human error.

Data ganda dan kerugian pada bisnis

Potensi kerugian yang ditimbulkan akibat data ganda ini bisa sangat besar pada organisasi bisnis.

Untuk industri seperti distribusi, misalnya, outlet yang tercatat duplikat akan meningkatkan biaya pemasaran karena biaya insentif yang harusnya ke satu outlet saja akan tercatat ke beberapa outlet.

Selain itu, di industri perbankan yang biasanya memiliki beberapa produk dan sistem berbeda, jumlah nasabah sebenarnya tidak akan diketahui dengan pasti.

Pada saat laporan ke Otoritas Jasa Keuangan, data itu berpotensi salah dan bank bisa dikenai denda jika ada temuan data ganda. Sistem manajemen master data ini biasa disebut sebagai single CIF.

Pada beberapa kasus bisnis lain, data ganda menyebabkan kekacauan penanganan stok, analisis data yang berantakan oleh divisi Human Resource and Development, dan rekonsiliasi data finansial yang gagal.

Parahnya lagi, pada kasus ekstrem, kombinasi problem data ganda di atas bisa menyebabkan berhentinya bisnis.

Penyebab data ganda

Data ganda ini biasanya terjadi akibat penulisan yang tidak standar dan lolos pengecekan atau validasi pada sistem, baik karena human error, sistem validasi sistem yang masih tidak mampu mendeteksi, atau bahkan karena merger (penggabungan) dari berbagai sistem.

Taruhlah contoh, andaikan kita memiliki sistem pendataan untuk memasukkan data profil orang berisi nama, alamat, tempat dan tanggal lahir.

Data yang diperoleh bisa saja memunculkan beberapa nama yang tampak berbeda, padahal sebetulnya satu orang yang sama.

Bisa juga ada beberapa data dengan nama orang yang sama, tetapi alamat dan tempat lahirnya beda cara penulisan.

Ilustrasi Data Ganda
Walaupun sebenarnya data tersebut merujuk pada orang yang sama, tetapi sistem akan menganggap ini adalah data yang berbeda. Kenapa bisa begitu? Perhatikan tiga kolom berikut yang tidak standar penulisannya.

Sistem entri yang ada di pasaran saat ini--apalagi dengan program spreadsheet untuk kegunaan umum, seperti Microsoft Excel--tidak akan mampu mendeteksi hal ini.

Jika perusahaan atau organisasi memiliki beberapa sistem, pendataan bisa berpotensi tidak standar seperti contoh di atas. Di situ penulisan data tidak standar, satu data tanggal lahir juga kosong.

Bayangkan jika empat data ini ada di tumpukan ratusan, ribuan, bahkan jutaan data. Bagaimana cara menemukan data tersebut? Hal ini akan memakan waktu lama sekali, bahkan bisa dikatakan tidak mungkin.

Apa solusinya?

Pada umumnya, perusahaan atau organisasi akan mencoba melakukan pencocokan data ini secara manual dengan aplikasi spreadsheet. Namun, hal ini tidak membantu banyak karena data tidak akan ketemu juga.

Bayangkan beban para staf yang menangani data ini, selain melelahkan, juga tidak akan bisa produktif ke hal lain, seperti analisis data.

Solusi dari data ganda ini adalah perangkat lunak yang dapat melakukan dua hal sekaligus. Hal pertama adalah mampu melakukan standarisasi data dengan cerdas dengan dilengkapi kamus data yang lengkap untuk bahasa Indonesia.

Yang kedua, melakukan pencocokan data dengan sangat cerdas dan cepat, 50.000 kali lebih cepat dibanding pencocokan manual.

Contoh standardisasi antara lain mengubah standar alamat "jln", "jalan", dan "jl." menjadi "jalan". Adapun pencocokan data misalnya menganggap sama/cocok nama "Siti Aminah" dan "Aminah Siti", begitu juga "Siti Aminah S.Kom" dan "Siti Aminah Skom". Pencocokan ini biasanya memiliki skor kemiripan data.

Kedua proses di atas sering disebut dengan data cleansing (proses pembersihan atau perbaikan data).

Aplikasi yang dapat melakukan ini masuk ke dalam kategori data quality, contohnya Microsoft Data Quality Service (DQS), IBM Infosphere QualityStage, Oracle Enterprise Data Quality, dan DataQualitix.

Meskipun sudah ada aplikasi pemroses data di atas, masih ada beberapa tantangan pembersihan data. Pertama, kamus data masih perlu dikumpulkan oleh para pemilik data, kecuali beberapa pemain lokal yang sudah terbiasa dengan proyek data quality--biasanya sudah menyediakan kamus data ini.

Kedua, penemuan data tidak sampai 100 persen. Biasanya berkisar dari 30 persen sampai dengan 80 persen. Variasi ini sangat tergantung data, algoritma dan template konfigurasi pencocokan.

Namun secara umum, manfaat yang didapatkan akan lebih besar daripada tantangan yang dihadapi.

Dengan keberhasilan melakukan data cleansing, maka organisasi bisa percaya diri menerapkan big data dengan predictive analytic dan machine learning yang semakin tren karena memungkinkan bisnis mendapatkan revenue lebih.

Dari contoh di atas, dapat dipahami bahwa data ganda adalah masalah yang umum terjadi, tetapi bisa menimbulkan kerugian besar, baik untuk organisasi pelayanan publik maupun perusahaan swasta.

Kerugian yang ditimbulkan bisa bervariasi, mulai dari tidak bisa mendapatkan laporan analisis yang tepat sampai berhentinya operasi bisnis karena tidak mampu melakukan rekonsiliasi data yang benar di sana-sini.

Penyebab dari masalah ini adalah tidak standarnya penulisan karena human error, validasi sistem yang tidak mumpuni atau terkena kompromi, migrasi ataupun merger sistem.

Solusi dari masalah tersebut adalah melakukan data cleansing dengan perangkat lunak yang mampu melakukan standarisasi dan pencocokan data (matching data) dengan cerdas dan cepat.


Itu dilakukan sedini mungkin sebelum data akhirnya menggunung dan malah menyulitkan organisasi bisnis itu sendiri.

Feris Thia
Content Principle DQLab.id, Founder PHI-Integration

Komentar
Close Ads X