Baca berita tanpa iklan. Gabung Kompas.com+
DQLab
Komunitas data scientist

Komunitas praktisi dan industri dalam program belajar data science oleh DQLab (dqlab.id).

Data Ganda, "Hantu" Berbahaya dalam Bisnis

Kompas.com - 14/09/2018, 19:49 WIB
Anda bisa menjadi kolumnis !
Kriteria (salah satu): akademisi, pekerja profesional atau praktisi di bidangnya, pengamat atau pemerhati isu-isu strategis, ahli/pakar di bidang tertentu, budayawan/seniman, aktivis organisasi nonpemerintah, tokoh masyarakat, pekerja di institusi pemerintah maupun swasta, mahasiswa S2 dan S3. Cara daftar baca di sini

Oleh: Feris Thia

BERITA tentang adanya jutaan data pemilih yang terindikasi ganda untuk Pemilu 2019 sebagaimana dihimpun Komisi Pemilihan Umum (KPU) tengah ramai diperbincangkan.

Atas permasalahan itu, saat ini KPU sedang bekerja keras untuk membersihkan data ganda tersebut karena jelas akan berdampak saat Pemilu 2019. Pembersihan data ini seolah membuat KPU harus melakukan kerja dua kali.

Tidak hanya dihadapi oleh KPU, fenomena data ganda ini juga sebenarnya umum terjadi dan menghantui banyak perusahaan dan organisasi di seluruh dunia.

Kok bisa? Bagaimana sampai bisa terjadi data ganda?

Data ganda atau data duplikat adalah kondisi di mana data entitas yang seharusnya sama, tetapi tercatat lebih dari satu kali.

Data seperti itu bisa diakibatkan banyak hal, mulai dari rancangan sistem entri yang tidak memiliki validasi rigid hingga human error.

Data ganda dan kerugian pada bisnis

Potensi kerugian yang ditimbulkan akibat data ganda ini bisa sangat besar pada organisasi bisnis.

Untuk industri seperti distribusi, misalnya, outlet yang tercatat duplikat akan meningkatkan biaya pemasaran karena biaya insentif yang harusnya ke satu outlet saja akan tercatat ke beberapa outlet.

Selain itu, di industri perbankan yang biasanya memiliki beberapa produk dan sistem berbeda, jumlah nasabah sebenarnya tidak akan diketahui dengan pasti.

Pada saat laporan ke Otoritas Jasa Keuangan, data itu berpotensi salah dan bank bisa dikenai denda jika ada temuan data ganda. Sistem manajemen master data ini biasa disebut sebagai single CIF.

Pada beberapa kasus bisnis lain, data ganda menyebabkan kekacauan penanganan stok, analisis data yang berantakan oleh divisi Human Resource and Development, dan rekonsiliasi data finansial yang gagal.

Parahnya lagi, pada kasus ekstrem, kombinasi problem data ganda di atas bisa menyebabkan berhentinya bisnis.

Penyebab data ganda

Data ganda ini biasanya terjadi akibat penulisan yang tidak standar dan lolos pengecekan atau validasi pada sistem, baik karena human error, sistem validasi sistem yang masih tidak mampu mendeteksi, atau bahkan karena merger (penggabungan) dari berbagai sistem.

Taruhlah contoh, andaikan kita memiliki sistem pendataan untuk memasukkan data profil orang berisi nama, alamat, tempat dan tanggal lahir.

Data yang diperoleh bisa saja memunculkan beberapa nama yang tampak berbeda, padahal sebetulnya satu orang yang sama.

Bisa juga ada beberapa data dengan nama orang yang sama, tetapi alamat dan tempat lahirnya beda cara penulisan.

Ilustrasi Data Ganda
Walaupun sebenarnya data tersebut merujuk pada orang yang sama, tetapi sistem akan menganggap ini adalah data yang berbeda. Kenapa bisa begitu? Perhatikan tiga kolom berikut yang tidak standar penulisannya.

Sistem entri yang ada di pasaran saat ini--apalagi dengan program spreadsheet untuk kegunaan umum, seperti Microsoft Excel--tidak akan mampu mendeteksi hal ini.

Jika perusahaan atau organisasi memiliki beberapa sistem, pendataan bisa berpotensi tidak standar seperti contoh di atas. Di situ penulisan data tidak standar, satu data tanggal lahir juga kosong.

Bayangkan jika empat data ini ada di tumpukan ratusan, ribuan, bahkan jutaan data. Bagaimana cara menemukan data tersebut? Hal ini akan memakan waktu lama sekali, bahkan bisa dikatakan tidak mungkin.

Apa solusinya?

Pada umumnya, perusahaan atau organisasi akan mencoba melakukan pencocokan data ini secara manual dengan aplikasi spreadsheet. Namun, hal ini tidak membantu banyak karena data tidak akan ketemu juga.

Bayangkan beban para staf yang menangani data ini, selain melelahkan, juga tidak akan bisa produktif ke hal lain, seperti analisis data.

Solusi dari data ganda ini adalah perangkat lunak yang dapat melakukan dua hal sekaligus. Hal pertama adalah mampu melakukan standarisasi data dengan cerdas dengan dilengkapi kamus data yang lengkap untuk bahasa Indonesia.

Yang kedua, melakukan pencocokan data dengan sangat cerdas dan cepat, 50.000 kali lebih cepat dibanding pencocokan manual.

Contoh standardisasi antara lain mengubah standar alamat "jln", "jalan", dan "jl." menjadi "jalan". Adapun pencocokan data misalnya menganggap sama/cocok nama "Siti Aminah" dan "Aminah Siti", begitu juga "Siti Aminah S.Kom" dan "Siti Aminah Skom". Pencocokan ini biasanya memiliki skor kemiripan data.

Kedua proses di atas sering disebut dengan data cleansing (proses pembersihan atau perbaikan data).

Aplikasi yang dapat melakukan ini masuk ke dalam kategori data quality, contohnya Microsoft Data Quality Service (DQS), IBM Infosphere QualityStage, Oracle Enterprise Data Quality, dan DataQualitix.

Meskipun sudah ada aplikasi pemroses data di atas, masih ada beberapa tantangan pembersihan data. Pertama, kamus data masih perlu dikumpulkan oleh para pemilik data, kecuali beberapa pemain lokal yang sudah terbiasa dengan proyek data quality--biasanya sudah menyediakan kamus data ini.

Kedua, penemuan data tidak sampai 100 persen. Biasanya berkisar dari 30 persen sampai dengan 80 persen. Variasi ini sangat tergantung data, algoritma dan template konfigurasi pencocokan.

Namun secara umum, manfaat yang didapatkan akan lebih besar daripada tantangan yang dihadapi.

Dengan keberhasilan melakukan data cleansing, maka organisasi bisa percaya diri menerapkan big data dengan predictive analytic dan machine learning yang semakin tren karena memungkinkan bisnis mendapatkan revenue lebih.

Dari contoh di atas, dapat dipahami bahwa data ganda adalah masalah yang umum terjadi, tetapi bisa menimbulkan kerugian besar, baik untuk organisasi pelayanan publik maupun perusahaan swasta.

Kerugian yang ditimbulkan bisa bervariasi, mulai dari tidak bisa mendapatkan laporan analisis yang tepat sampai berhentinya operasi bisnis karena tidak mampu melakukan rekonsiliasi data yang benar di sana-sini.

Penyebab dari masalah ini adalah tidak standarnya penulisan karena human error, validasi sistem yang tidak mumpuni atau terkena kompromi, migrasi ataupun merger sistem.

Solusi dari masalah tersebut adalah melakukan data cleansing dengan perangkat lunak yang mampu melakukan standarisasi dan pencocokan data (matching data) dengan cerdas dan cepat.

Itu dilakukan sedini mungkin sebelum data akhirnya menggunung dan malah menyulitkan organisasi bisnis itu sendiri.

Feris Thia
Content Principle DQLab.id, Founder PHI-Integration

Simak breaking news dan berita pilihan kami langsung di ponselmu. Pilih saluran andalanmu akses berita Kompas.com WhatsApp Channel : https://www.whatsapp.com/channel/0029VaFPbedBPzjZrk13HO3D. Pastikan kamu sudah install aplikasi WhatsApp ya.

Video rekomendasi
Video lainnya


Terkini Lainnya

LKPP: Nilai Transaksi Pemerintah di e-Katalog Capai Rp 196,7 Triliun Sepanjang 2023

LKPP: Nilai Transaksi Pemerintah di e-Katalog Capai Rp 196,7 Triliun Sepanjang 2023

Whats New
?[POPULER MONEY] Kasus Korupsi Timah Seret Harvey Moeis | Pakaian Bekas Impor Marak Lagi

?[POPULER MONEY] Kasus Korupsi Timah Seret Harvey Moeis | Pakaian Bekas Impor Marak Lagi

Whats New
Kemenhub Fasilitasi Pemulangan Jenazah ABK Indonesia yang Tenggelam di Perairan Jepang

Kemenhub Fasilitasi Pemulangan Jenazah ABK Indonesia yang Tenggelam di Perairan Jepang

Whats New
Apa Pengaruh Kebijakan The Fed terhadap Indonesia?

Apa Pengaruh Kebijakan The Fed terhadap Indonesia?

Whats New
Gandeng Telkom Indonesia, LKPP Resmi Rilis E-Katalog Versi 6

Gandeng Telkom Indonesia, LKPP Resmi Rilis E-Katalog Versi 6

Whats New
Ekonomi China Diprediksi Menguat pada Maret 2024, tetapi...

Ekonomi China Diprediksi Menguat pada Maret 2024, tetapi...

Whats New
Berbagi Saat Ramadhan, Mandiri Group Berikan Santunan untuk 57.000 Anak Yatim dan Duafa

Berbagi Saat Ramadhan, Mandiri Group Berikan Santunan untuk 57.000 Anak Yatim dan Duafa

Whats New
Tarif Promo LRT Jabodebek Diperpanjang Sampai Mei, DJKA Ungkap Alasannya

Tarif Promo LRT Jabodebek Diperpanjang Sampai Mei, DJKA Ungkap Alasannya

Whats New
Bisnis Pakaian Bekas Impor Marak Lagi, Mendag Zulhas Mau Selidiki

Bisnis Pakaian Bekas Impor Marak Lagi, Mendag Zulhas Mau Selidiki

Whats New
Cara Reaktivasi Penerima Bantuan Iuran BPJS Kesehatan

Cara Reaktivasi Penerima Bantuan Iuran BPJS Kesehatan

Work Smart
Kehabisan Tiket Kereta Api? Coba Fitur Ini

Kehabisan Tiket Kereta Api? Coba Fitur Ini

Whats New
Badan Bank Tanah Siapkan Lahan 1.873 Hektar untuk Reforma Agraria

Badan Bank Tanah Siapkan Lahan 1.873 Hektar untuk Reforma Agraria

Whats New
Dukung Pembangunan Nasional, Pelindo Terminal Petikemas Setor Rp 1,51 Triliun kepada Negara

Dukung Pembangunan Nasional, Pelindo Terminal Petikemas Setor Rp 1,51 Triliun kepada Negara

Whats New
Komersialisasi Gas di Indonesia Lebih Menantang Ketimbang Minyak, Ini Penjelasan SKK Migas

Komersialisasi Gas di Indonesia Lebih Menantang Ketimbang Minyak, Ini Penjelasan SKK Migas

Whats New
Mulai Mei 2024, Dana Perkebunan Sawit Rakyat Naik Jadi Rp 60 Juta Per Hektar

Mulai Mei 2024, Dana Perkebunan Sawit Rakyat Naik Jadi Rp 60 Juta Per Hektar

Whats New
Baca berita tanpa iklan. Gabung Kompas.com+
Baca berita tanpa iklan. Gabung Kompas.com+
Baca berita tanpa iklan. Gabung Kompas.com+
komentar di artikel lainnya
Baca berita tanpa iklan. Gabung Kompas.com+
Close Ads
Bagikan artikel ini melalui
Oke
Login untuk memaksimalkan pengalaman mengakses Kompas.com