Blog kali ini akan membahas hal-hal pokok terkait analisis data. Selain itu, beberapa metode dan teknik yang sangat berguna dan banyak diterapkan di bidang kehidupan. (Ditulis Oleh : HN Rizka, Januari 2022)
Tentu tidak lengkap rasanya jika blog paham statistika tidak menyentuh topik dasar mengenai gambaran besar analisis data. Pada blog pertama telah dibahas mengenai pandangan penulis mengenai data di era modern dan statistika sebagai alat konvensional yang telah berevolusi menjadi alat yang ampuh hingga mampu mempengaruhi berbagai bidang kehidupan. Kali ini akan dibahas lebih jauh mengenai pandangan terhadap analisis data. Fokus analisis disini adalah analisis untuk data kuantitatif. Untuk merepresentasikan seberapa penting analisis data, penulis ingin menggarisbawahi kutipan berikut :
“While nothing is more uncertain than a single life, nothing is more certain than the average duration of thousand lives” - Elizur Wright
Apa itu Analisis Data?
Analisis data secara praktis berfokus pada informasi dan interpretasi seperti apa yang bisa didapatkan dari data. Pada blog pertama, sempat disinggung mengenai bagaimana era big data muncul dari banyaknya data yang terlihat tidak berguna sehingga sering dikatakan sebagai "sampah data". Tentu sekilas "sampah data" terlihat memiliki informasi-informasi tidak penting. Namun nyatanya, memanfaatkan sampah data ini, google sukses menjadi salah satu perusahan teknologi paling besar di dunia. Tren pemanfaatan sampah data ini kemudian diikuti perusahaan-perusahaan lain. Hingga pada saat ini, hampir seluruh bidang kehidupan memanfaatkannya.
Tentu hal ini tidak semudah menuliskan frasa "memanfaatkan sampah data". Dalam mendapatkan informasi dalam data, metode analisis haruslah sesuai dan relevan. Karena tentunya kita tidak ingin mendapatkan informasi yang tidak akurat atau bahkan sama sekali berlawanan dari fakta. Menganalisis data pun tidak seindah memetik fakta kehidupan, pada keadaan terbaik kita hanya mampu mengira-ngira fakta. Tentu tidak ideal namun sangat berarti bahkan jika terkait dengan nyawa jutaan orang.
Secara umum, analisis data tentu mengarah pada prosedur pengambilan data itu sendiri dan melakukan "pengolahan" data yang kemudian kita dapatkan informasi. Tidak berhenti sampai mendapatkan informasi, langkah/keputusan/saran untuk apa yang bisa dilakukan dengan informasi tersebut menjadi puncak prosedur ini. Kita ilustrasikan seperti berikut :
Anda merupakan seorang analis klien yang bekerja untuk memberikan saran terkait waktu pengajuan klaim jaminan pinjaman. Jaminan pinjaman ini sendiri merupakan semacam ganti rugi ketika klien dari bank anda mangkir dari perjanjian kredit. Anda diberikan akses pada informasi klien seperti total tagihan, status pembayaran periode sebelumnya, serta profil biodata diri. Anda diminta untuk melakukan profiling mengenai klien-klien yang mangkir dari pembayaran. Hasil dari profiling ini kemudian dapat anda gunakan untuk memberikan saran mengenai berapa banyak dan kapan klaim jaminan pinjaman harus diajukan pada periode selanjutnya untuk menghindari kerugian pada bank tempat anda bekerja.
Seberapa Penting Analisis Data?
Tidak bisa dipungkiri bahwa kehidupan khalayak umum telah bergantung pada sains data. Seperti keadaan yang diilustrasikan sebelumnya, kemampuan menganalisis permasalahan untuk kemudian memberikan saran dari hasil analisis sangatlah vital. Dalam bidang lain juga telah banyak pemanfaatan analisis data. Bahkan bidang-bidang yang mungkin bagi khalayak umum jauh dari kata "eksak". Seperti contoh analisis spasial untuk yang digunakan dalam memprediksi tindak kriminal di wilayah tertentu dan analisis kuantitatif pada warisan kebudayaan yang digunakan dalam melakukan tracing kebudayaan hingga pengelolaan. Perkembangan dari sains data sangat berimbas pada banyak bidang kehidupan.
Lalu pertanyaannya, mengapa analisis data ini lebih "diagungkan" daripada mencari "fakta" itu sendiri. Sebagai pengingat, analisis data dengan statistika secara langsung mengimplikasikan bahwa kita menyederhanakan masalah kompleks sehingga mendapatkan informasi sederhana yang dapat menjadi acuan kerja atau keputusan selanjutnya dalam bertindak. Dengan kata lain, kita melakukan perkiraan atau estimasi terhadap masalah asli yang kemudian hasilnya kita aplikasikan secara langsung di kehidupan.
Sederhananya untuk menjawab pertanyaan diawal paragraf sebelum ini adalah karena yang dilakukan dalam analisis data dengan statistika sangat sederhana dan memiliki akurasi yang cukup tinggi. Konsep penyederhanaan ini selaras dengan proses kerja statistika yaitu bekerja di ruang lingkup kecil yaitu sampel untuk mempelajari sesuatu yang lebih besar yaitu populasi. Bayangkan pada kasus analis klien sebelumnya, tanpa analisa data, profiling yang perlu dilakukan adalah untuk seluruh klien kredit di bank tersebut. Tentu ini akan memakan waktu dan biaya yang besar karena seperti saat mencatat status pembayaran, diperlukan waktu tertentu. Dengan analisis data, analis hanya perlu melihat track record dan profil klien yang telah ada di database dimana ini pasti telah tercatat saat klien pertama kali mendaftar di bank tersebut. Selain itu, dengan hanya menganalisis sebagian klien, analis mampu mempelajari seluruh klien bahkan juga dapat diterapkan ke klien-klien di masa mendatang.
Metode Analisis Data
Setelah mengetahui seberapa signifikan dan bergunanya analisis data, selanjutnya dibahas beberapa metode yang cukup banyak digunakan di berbagi bidang kehidupan. Namun sebelum itu, mari kita bahas sedikit mengenai kategori dari analisis itu sendiri :
Analisis deskriptif, yaitu mempelajari secara sekilas "apa yang terjadi". Pada proses ini dilakukan : identifikasi data seperti jenis dan tipe variabel (contoh : jenis kelamin adalah jenis variabel kategori sedangkan umur adalah variabel numerik) , transformasi serta manipulasi data sedemikian dapat digunakan lebih lanjut (contoh : mengubah jawaban kuesioner menjadi bentuk tabel dan data kategori), dan penataan ulang data sedemikian dapat dipresentasikan secara menarik (contoh : grafik dan plot) . Analisis ini biasanya termasuk kedalam eksplorasi awal pada data.
Eksplorasi, dalam artian melakukan identifikasi hubungan antar variabel dalam data. Hubungan yang ditemukan kemudian dijadikan suatu klaim yang perlu diuji kebenarannya. Contoh pada ilustrasi analisis data klien sebelumnya, terdapat variabel tingkat pendidikan dan analis mencurigai ada pengaruh tingkat pendidikan dengan status pemabayaran kredit. Kecurigaan analis ini merupakan klaim atau dikenal juga dengan "hipotesis" yang kemudian perlu dibuktikan kebenarannya.
Diagnosa, yaitu proses untuk mempelajari kenapa suatu hal terjadi. Dalam ilustrasi klien bank kredit sebelumnya, analis melakukan diagnosa terhadap "kenapa klien kredit mangkir dari pembayaran". Diagnosa ini sangat digemari di bidang retail karena mereka tertarik untuk mempelajari perilaku beli konsumen sedemikian hasil dari analisa ini dapat mereka gunakan untuk marketing yang tepat sasaran dan lebih efisien serta memprediksi pasar produk mereka.
Prediktif, sesuai namanya analisis ini berfokus pada prediksi masa depan. Bentuk prediksi ini sangatlah beragam seperti prediksi cuaca harian yang setiap harinya tersedia. Fokus dari analisis ini tentunya adalah "apa yang akan terjadi di masa depan", bahkan seringkali tidak terlalu memperhatikan "kenapa hal tersebut terjadi". Contoh yang paling menggambarkan ini adalah analisis teknikal untuk harga saham. Dalam ilustrasi klien kredit, setelah melakukan profiling analis perlu melakukan prediksi mengenai resiko mangkir pembayaran pada klien-klien lain dan masa mendatang.
Preskriptif, analisis ini sebenarnya hanya istilah dari proses lengkap dengan menggunakan 4 jenis analisis sebelumnya. Analisa jenis ini lebih berfokus pada bagaimana memanfaatkan informasi yang didapat dari hasil analisis. Seperti pada ilustrasi klien sebelumnya, setelah analis melakukan profiling klien dan memprediksi status pembayaran, keputusan atau saran apa yang bisa diberikan analis tersebut kepada bank tersebut sedemikian bank mendapatkan manfaat dari analisis profiling tersebut. Contohnya : ditemukan efek tingkat pendidikan sangat mempengaruhi perilaku pembayaran klien, maka saran dari hasil tersebut dapat berupa peninjauan ulang berdasarkan tingkat pendidikan pada klien-klien masa mendatang.
Untuk metode analisis data kuantitatif terdapat banyak jenis, beberapa diantaranya dibahas selanjutnya. Dalam istilah populer machine learning metode analisis dibagi menjadi 2 : supervised learning dan unsupervised learning.
Supervised Learning
Sederhananya metode ini mengarah pada metode analisis untuk data dengan "masukan" dan "keluaran". Keluaran merupakan variabel tujuan (dapat berupa numerik atau kategorik). Sedangkan masukan adalah berupa variabel prediktor atau fitur yang digunakan untuk memprediksi keluaran.
Seperti ilustrasi klien kredit sebelumnya, tujuan profiling adalah untuk mempelajari karakteristik klien-klien yang mangkir pembayaran lalu memprediksi klien lainnya yang berpotensi mangkir dari pembayarannya. Untuk membedakan antara klien mangkir atau tidak, data pengamatan diberikan "label". Dengan kata lain diamati variabel status pembayarannya.

Tabel diatas adalah contoh data klien kredit sebelumnya. Status pembayaran direpresentasikan dengan kolom "default.payment.next.month". Jika klien pernah mangkir setidaknya sekali dalam periode 6 bulan pengamatan, maka statusnya adalah "1". Sedangkan jika klien tidak pernah mangkir pembayaran selama 6 bulan pengamatan, maka statusnya "0".
Contoh label diatas adalah salah satu bentuk keluaran. Keluaran yang diprediksi dengan variabel prediktor akan memerlukan metode supervised sehingga kita bisa mengukur seberapa baik prediksi tersebut. Baik keluaran maupun prediktor dapat berupa numerik ataupun kategorik.
Metode supervised memerlukan adanya variabel tujuan (seperti label) dan variabel prediktor (atau fitur). Sedemikian proses yang dilakukan adalah membangun suatu sistem yang memanfaatkan masukan yaitu variabel prediktor/fitur untuk kemudian hasil dari sistem tersebut adalah nilai variabel tujuan. Jika dianalogikan, metode ini mirip seperti proses produksi berikut :

Input/masukan adalah berupa variabel prediktor, kemudian dilakukan proses analisis seperti penghitungan statistik, hasilnya adalah berupa variabel tujuan. Untuk masukan yang berbeda dapat dihasilkan keluaran yang berbeda juga.
Metode dalam supervised learning dapat dikategorikan menjadi 2 seperti berikut :
Analisis regresi dan turunannya seperti contoh : regresi polinomial, regresi ridge, regresi spasial, regresi bayes, regresi komponen utama, dan regresi smoothing. Contoh lain dapat anda lihat di : 15 contoh jenis regresi .
Analisis Klasifikasi dan turunannya seperti contoh : analisis diskriminan, support vector machine, decision tree, dan regresi logistik.
Beberapa metode diatas akan dibahas lebih lanjut di blog selanjutnya.
Unsupervised Learning
Kebalikan dari metode supervised, unsupervised learning tidak memerlukan adanya keluaran dalam data. Sebaliknya, metode ini digunakan untuk menciptakan keluran itu sendiri. Dengan kata lain, ketika data hanya berisikan variabel prediktor dan tidak memiliki variabel tujuan, metode unsupervised digunakan untuk mempelajari keadaan dan struktur data tersebut. Tentunya akurasi atau seberapa baik hasil dari metode unsupervised tidak memiliki panduan tersendiri. Berbeda dengan ketika mempelajari supervised yang mana hasil dari sistem yang dibuat dapat diukur seberapa baik/benar hasilnya dengan membandingkan nilai asli variabel tujuan.
Pada ilustrasi analisis klien sebelumnya, unsupervised learning digunakan ketika tidak terdapat status pembayaran. Tentunya jika ini dilakukan, hasil yang didapatkan adalah berupa pengelompokan berdasarkan profile klien. Pengelompokan ini dapat kemudian dipelajari dengan informasi lanjutan dengan mengamati perilaku pembayaran klien, lalu dilihat kelompok mana yang lebih banyak berisikan klien yang mangkir dari pembayaran kredit. Proses seperti ini biasa dikenal dengan labelling dan tentunya untuk mendapatkan interpretasi dari labelling diperlukan informasi tambahan. Hal ini karena unsupervised learning hanya mempelajari struktur data.
Metode dalam unsupervised learning dapat dikategorikan menjadi 2 seperti berikut :
Clustering, yaitu metode pengelompokan ketika anda ingin menemukan pengelompokan yang ada di data. Contohnya adalah clustering pelanggan berdasarkan perilaku belinya. Perilaku beli ini dapat dikarakterisasi dengan intensitas beli, rata-rata nilai pembelian, dan produk-produk yang dibeli. Pengelompokan berdasarkan perilaku beli ini tentu tidak dapat dipastikan benar tidaknya. Meskipun begitu, kelompok-kelompok pelanggan yang terbentuk masih dapat dipelajari karakteristiknya. Sehingga saran yang bisa diajukan adalah seperti prioritas advertising untuk kelompok dengan intensitas dan nilai pembelian yang tinggi.
Association, yaitu metode yang mempelajari kecenderungan 2 kejadian terjadi bersamaan. Contohnya pada data pelanggan retail, data belanjaan direkam kemudian diolah sedemikian kita tahu produk-produk apa yang sering dibeli bersamaan. Ini kemudian dapat dijadikan dasar penempatan produk-produk yang dijual di supermarket.
Dari penjelasan singkat kedua kategori diatas, terlihat bahwa walaupun unsupervised learning hanya dapat digunakan untuk mempelajari struktur data, manfaat yang bisa didapatkan sangat besar.
Selain dari kedua jenis pembelajaran untuk analisis data diatas, terdapat jalan tengah diantara keduanya yaitu semi supervised learning. Jenis ketiga ini lebih banyak ditemui di dunia nyata karena seperti pada kasus analisis data klien sebelumnya, jika kita ingin melakukan profiling seluruh klien kredit, biaya dan waktu yang diperlukan sangat besar. Sehingga kita mengambil contoh/sampel yang memiliki struktur lengkap dengan label/variabel tujuan dan dipelajari secara supervised, kemudian menerapkan hasil dari analisis tersebut pada data baru yang tidak memiliki label atau nilai variabel tujuan.
Demikian blog untuk kali ini, harapannya semoga informasi yang penulis bagikan dapat memberikan manfaat bagi pembaca.
Comentários