Baca berita tanpa iklan. Gabung Kompas.com+
DQLab
Komunitas data scientist

Komunitas praktisi dan industri dalam program belajar data science oleh DQLab (dqlab.id).

Data Ganda, "Hantu" Berbahaya dalam Bisnis

Kompas.com - 14/09/2018, 19:49 WIB
Anda bisa menjadi kolumnis !
Kriteria (salah satu): akademisi, pekerja profesional atau praktisi di bidangnya, pengamat atau pemerhati isu-isu strategis, ahli/pakar di bidang tertentu, budayawan/seniman, aktivis organisasi nonpemerintah, tokoh masyarakat, pekerja di institusi pemerintah maupun swasta, mahasiswa S2 dan S3. Cara daftar baca di sini

Data ganda ini biasanya terjadi akibat penulisan yang tidak standar dan lolos pengecekan atau validasi pada sistem, baik karena human error, sistem validasi sistem yang masih tidak mampu mendeteksi, atau bahkan karena merger (penggabungan) dari berbagai sistem.

Taruhlah contoh, andaikan kita memiliki sistem pendataan untuk memasukkan data profil orang berisi nama, alamat, tempat dan tanggal lahir.

Data yang diperoleh bisa saja memunculkan beberapa nama yang tampak berbeda, padahal sebetulnya satu orang yang sama.

Bisa juga ada beberapa data dengan nama orang yang sama, tetapi alamat dan tempat lahirnya beda cara penulisan.

Ilustrasi Data Ganda
Walaupun sebenarnya data tersebut merujuk pada orang yang sama, tetapi sistem akan menganggap ini adalah data yang berbeda. Kenapa bisa begitu? Perhatikan tiga kolom berikut yang tidak standar penulisannya.

Sistem entri yang ada di pasaran saat ini--apalagi dengan program spreadsheet untuk kegunaan umum, seperti Microsoft Excel--tidak akan mampu mendeteksi hal ini.

Jika perusahaan atau organisasi memiliki beberapa sistem, pendataan bisa berpotensi tidak standar seperti contoh di atas. Di situ penulisan data tidak standar, satu data tanggal lahir juga kosong.

Bayangkan jika empat data ini ada di tumpukan ratusan, ribuan, bahkan jutaan data. Bagaimana cara menemukan data tersebut? Hal ini akan memakan waktu lama sekali, bahkan bisa dikatakan tidak mungkin.

Apa solusinya?

Pada umumnya, perusahaan atau organisasi akan mencoba melakukan pencocokan data ini secara manual dengan aplikasi spreadsheet. Namun, hal ini tidak membantu banyak karena data tidak akan ketemu juga.

Bayangkan beban para staf yang menangani data ini, selain melelahkan, juga tidak akan bisa produktif ke hal lain, seperti analisis data.

Solusi dari data ganda ini adalah perangkat lunak yang dapat melakukan dua hal sekaligus. Hal pertama adalah mampu melakukan standarisasi data dengan cerdas dengan dilengkapi kamus data yang lengkap untuk bahasa Indonesia.

Yang kedua, melakukan pencocokan data dengan sangat cerdas dan cepat, 50.000 kali lebih cepat dibanding pencocokan manual.

Contoh standardisasi antara lain mengubah standar alamat "jln", "jalan", dan "jl." menjadi "jalan". Adapun pencocokan data misalnya menganggap sama/cocok nama "Siti Aminah" dan "Aminah Siti", begitu juga "Siti Aminah S.Kom" dan "Siti Aminah Skom". Pencocokan ini biasanya memiliki skor kemiripan data.

Kedua proses di atas sering disebut dengan data cleansing (proses pembersihan atau perbaikan data).

Halaman:
Video rekomendasi
Video lainnya


Terkini Lainnya

Ada Hujan Lebat, Kecepatan Whoosh Turun hingga 40 Km/Jam, Perjalanan Terlambat

Ada Hujan Lebat, Kecepatan Whoosh Turun hingga 40 Km/Jam, Perjalanan Terlambat

Whats New
BTN Buka Kemungkinan Lebarkan Bisnis ke Timor Leste

BTN Buka Kemungkinan Lebarkan Bisnis ke Timor Leste

Whats New
[POPULER MONEY] Respons Bulog soal Program Makan Siang Gratis Butuh 6,7 Ton Beras Per Tahun | Iuran Pariwisata Bisa Bikin Tiket Pesawat Makin Mahal

[POPULER MONEY] Respons Bulog soal Program Makan Siang Gratis Butuh 6,7 Ton Beras Per Tahun | Iuran Pariwisata Bisa Bikin Tiket Pesawat Makin Mahal

Whats New
KCIC Minta Maaf Jadwal Whoosh Terlambat Gara-gara Hujan Lebat

KCIC Minta Maaf Jadwal Whoosh Terlambat Gara-gara Hujan Lebat

Whats New
Cara Pinjam Uang di Rp 5 Juta di Pegadaian, Bunga, dan Syaratnya

Cara Pinjam Uang di Rp 5 Juta di Pegadaian, Bunga, dan Syaratnya

Earn Smart
Kemenkeu Akui Pelemahan Rupiah dan Kenaikan Imbal Hasil Berdampak ke Beban Utang Pemerintah

Kemenkeu Akui Pelemahan Rupiah dan Kenaikan Imbal Hasil Berdampak ke Beban Utang Pemerintah

Whats New
Prudential Laporkan Premi Baru Tumbuh 15 Persen pada 2023

Prudential Laporkan Premi Baru Tumbuh 15 Persen pada 2023

Whats New
Bulog Siap Pasok Kebutuhan Pangan di IKN

Bulog Siap Pasok Kebutuhan Pangan di IKN

Whats New
Pintu Perkuat Ekosistem Ethereum di Infonesia

Pintu Perkuat Ekosistem Ethereum di Infonesia

Whats New
BTN Syariah Cetak Laba Bersih Rp 164,1 Miliar pada Kuartal I 2024

BTN Syariah Cetak Laba Bersih Rp 164,1 Miliar pada Kuartal I 2024

Whats New
Pegadaian Bukukan Laba Bersih Rp 1,4 Triliun pada Kuartal I 2024

Pegadaian Bukukan Laba Bersih Rp 1,4 Triliun pada Kuartal I 2024

Whats New
Program Makan Siang Gratis Butuh 6,7 Ton Beras Per Tahun, Bulog Tunggu Arahan Pemerintah

Program Makan Siang Gratis Butuh 6,7 Ton Beras Per Tahun, Bulog Tunggu Arahan Pemerintah

Whats New
BTN Cetak Laba Bersih Rp 860 Miliar pada Kuartal I 2024

BTN Cetak Laba Bersih Rp 860 Miliar pada Kuartal I 2024

Whats New
Bulog Siap Jadi Pembeli Gabah dari Sawah Hasil Teknologi Padi China

Bulog Siap Jadi Pembeli Gabah dari Sawah Hasil Teknologi Padi China

Whats New
Bulog Baru Serap 633.000 Ton Gabah dari Petani, Dirut: Periode Panennya Pendek

Bulog Baru Serap 633.000 Ton Gabah dari Petani, Dirut: Periode Panennya Pendek

Whats New
Baca berita tanpa iklan. Gabung Kompas.com+
Baca berita tanpa iklan. Gabung Kompas.com+
Baca berita tanpa iklan. Gabung Kompas.com+
komentar di artikel lainnya
Baca berita tanpa iklan. Gabung Kompas.com+
Close Ads
Bagikan artikel ini melalui
Oke
Login untuk memaksimalkan pengalaman mengakses Kompas.com