top of page

Analisis Diskriminan

Updated: Feb 7, 2022

Metode analisis untuk melakukan klasifikasi pada data. Selain melakukan klasifikasi, metode ini juga melakukan reduksi dimensi yang memudahkan visualisasi hasil klasifikasi dengan grafik. (Ditulis oleh HN Rizka, Februari 2022).

"We look to statistics for reassurance in these types of situations. Here is one: 100% of mass shootings have been enabled by access to guns. I can guarantee that even if there were a genotype shared by the mass shooters, which there will not be, none of the killings would have happened if they didn't have guns." - Adam Rutherford

Analisis diskriminan merupakan metode yang digunakan untuk melakukan klasifikasi data kategorik. Metode ini mungkin akan lebih dapat anda bayangkan mirip seperti analisis regresi. Klasifikasi yang dilakukan analisis diskriminan dilakukan menggunakan "fitur" dari kategori yang diteliti. Sehingga metode ini termasuk kedalam metode supervised learning dan terdapat variabel yang berperan sebagai prediktor maupun tujuan.

Metode ini memiliki kegunaan dalam bidang yang sangat beragam. Selain itu, hasil analisis metode ini sangat mudah dipahami serta ide yang mendasari proses kerjanya cukup sederhana. Maka dari itu, metode ini sering digunakan pertama kali dalam melakukan klasifikasi. Contoh hasil yang populer dari penerapan metode adalah :

  1. Facial Recognition. Bagi anda yang hidup di tahun 2022 tentunya ini bukanlah hal yang asing, bahkan kemungkinan besar anda menggunakan ini hampir setiap waktu seperti membuka kunci HP/Laptop ataupun membuka akun media sosial anda. Konsep informasi yang digunakan dikenal dengan fisherfaces, yang sederhananya merupakan metode dalam merepresentasikan informasi menggunakan matriks untuk mengenali fitur wajah anda.

  2. Prediksi Kebangkrutan. Salah satunya adalah model oleh Edward Altman memprediksi kebangkrutan perusahaan-perusahaan dan sudah dievaluasi lebih dari 30 tahun dengan akurasi tertingginya mencapai 90%.

Setelah mengetahui beberapa manfaat analisis diskriminan diatas, selanjutnya dibahas mengenai bagaimana analisis diskriminan bekerja.


Analisis Diskriminan Sebagai Metode Klasifikasi


Untuk memudahkan pemahaman, perhatikan ilustrasi keada berikut :

Misalkan anda merupakan farmasis yang sedang meneliti mengenai efektivitas suatu obat baru dalam menangani penyakit pernapasan. Setelah melakukan rangkaian percobaan dan obat sudah hampir siap diluncurkan, uji klinis mengatakan bahwa obat tersebut memiliki efek samping yang buruk bagi orang-orang dengan fitur tertentu. Didapatkan juga bahwa fitur tersebut dapat diukur secara numerik. Contoh fitur tersebut seperti tekanan dan gula darah. Dari uji klinis tersebut, anda diberikan tugas untuk melakukan klasifikasi antara orang-orang yang dapat dengan aman mendapatkan perawatan dengan orang tersebut dan orang-orang yang tidak dapat mengkonsumsi obat tersebut.

Dari keadaan diatas, klasifikasi dilakukan untuk memberikan obat tersebut ke pasien yang tepat. Analisis diskriminan (linear) akan membangun suatu fungsi dari kombinasi linear pada data sedemikian hasil dari fungsi tersebut menghasilkan pemisahan kedua label/kategori pada ilustrasi diatas. Tentu definisi tersebut dapat diperluas untuk fungsi kombinasi non-linear seperti fungsi kuadrat untuk mengakomodasi pemisahan yang lebih baik pada kedua kategori. Juga analisis diskriminan dapat diaplikasikan ke variabel kategorik dengan kategori lebih dari dua. Untuk kepentingan menjelaskan sedemikian ilustrasi prosedur lebih mudah dipahami, analisis diskriminan yang dijelaskan berikut merujuk pada analisis diskriminan linear atau linear discriminant analysis (LDA).


Estimasi Fungsi Diskriminan


Seperti yang telah dijelaskan diatas, tujuan LDA adalah membangun fungsi yang didasarkan pada kombinasi linear dari data. Secara aljabar, proses membangun fungsi ini mirip seperti PCA. LDA melakukan transformasi untuk kemudian mempertahankan "dimensi" baru yang dapat melakukan pemisahan terbaik. Inilah yang membedakan proses transformasi pada PCA dengan LDA. Untuk lebih memahami ini, perhatikan grafik data berikut :

Pada gambar diatas, terdapat 2 kategori pada variabel tujuan. Terlihat bahwa kedua kategori membentuk pola yang terlihat jelas pada grafik diatas. Tentu dengan mudah anda dapat menarik garis pemisah seperti garis biru diatas untuk memisahkan kedua kategori pada variabel tujuan anda. Hal ini karena fitur yang mengkarakterisasi variabel tujuan hanya ada 2. Namun, bayangkan jika anda memiliki 3 fitur yang mengkarakterisasi data. Anda akan memerlukan grafik 3 dimensi yang kemudian anda perlu membuat, bukan garis, namun bidang 2 dimensi untuk membuat batas pemisah seperti yang dilakukan pada grafik diatas. Tentu ini tidak berhenti di 3 fitur, bahkan pada blog sebelumnya contoh penerapan dilakukan pada data dengan lebih dari 10 variabel. Dengan kata lain, memisahkan dengan membuat garis pemisah secara subjektif yang dilakukan tersebut bukanlah hal yang aplikatif.

LDA sesuai dengan deskripsi sebelumnya, secara prinsip juga melakukan pembentukan suatu pemisah seperti ilustrasi diatas. Namun, pemisahan dilakukan setelah data direduksi. Pada ilustrasi sebelumnya, LDA melakukan transformasi pada data sedemikian pemisahan dapat dilakukan secara "optimal". Dalam membangun garis untuk data diatas, formula berikut digunakan

Formula diatas dikenal dengan nama fungsi diskriminan. Fungsi tersebut melakukan transformasi pada data dengan syarat bahwa hasil transformasi yaitu Z memiliki "selisih rataan antar kategori" yang tinggi dan "variasi total dalam kedua kategori" rendah. Dengan kata lain, kedua batasan ini dapat dituliskan secara matematis sebagai berikut :

Kedua batasan inilah yang merepresentasikan pemisahan optimal sebelumnya.

Untuk memberikan ilustrasi transformasi pada data diatas, salah satu yang dapat anda lakukan adalah proyeksi ke salah satu fitur. Dengan kata lain, anda hanya perlu mengabaikan salah satu variabel.

Sebagai contoh, grafik diatas merupakan data sebelumnya yang diproyeksikan ke fitur 1. Grafik tersebut sebenarnya sangat padat, keterbatasan representasi menyebabkan banyak titik yang saling tindih. Terliaht bahwa pemisahan dengan hanya melihat fitur 1 tidak optimal. Anda akan mendapati bahwa proyeksi ke fitur 2 cukup baik dalam memisahkan kedua kategori. Namun, prosedur dengan hanya mengabaikan fitur tentu secara umum tidak dianjurkan. LDA memberikan solusi dimana prosedurnya akan menghasilkan garis dimana pemisahan dilakukan secara optimal dengan kriteria yang telah dijelaskan sebelumnya.

Dari hasil penerapan LDA pada data contoh sebelumnya, didapatkan hasil proyeksi pada garis lurus sebagai berikut :

Plot diatas memberikan pemisahan optimal dengan akurasi 100%. Tentu akurasi ini didapatkan dengan memabndingkan hasil prediksi klasifikasi dengan label/kategori sebenarnya dari tiap individu pada data.

Untuk kasus klasifikasi dengan kategori lebih dari 2 menggunakan LDA, secara umum digunakan grafik 2 hingga 3 dimensi. Tentu ini disebebkan oleh keterbatasan manusia dalam membayangkan objek di dimensi ketiga. Mungkin suatu saat ketika pemahaman pada dimensi keempat sudah secara kompak dipahami manusia, batasan tersebut akan hilang.

Secara prinsip dalam memetakan klasifikasi ini, LDA akan membangun K-1 persamaan untuk K adalah banyaknya kategori/grup/label. Persamaan-persamaan ini tentunya menyatakan koordinat di salah satu dimensi untuk setiap individu pada ruang hasil transformasi. Seperti pada contoh diatas, terdapat 2 kategori sehingga hanya diperlukan 1 persamaan dan ruang hasil transformasi hanya berupa garis. Jika ada 3 kategori, katakan kita ingin mengklasifikasi 3 spesies kucing, maka diperlukan 2 persamaan. Dengan kata lain, ruang untuk mengklasifikasi 3 kategori tersebut adalah berupa bidang 2 dimensi. Logika penambahan kategori dapat dianalogikan seperti titik berikut :

  • Jika anda memiliki 2 titik, maka anda dapat menyatukan keduanya dengan garis. Garis merupakan objek di dimensi 1.

  • Jika anda memiliki 3 titik, maka anda dapat menyatukan ketiganya dalam suatu bidang seperti segitiga. Bidang merupakan objek di dimensi 2.

  • Jika anda memiliki 4 titik, anda dapat membangun limas untuk menyatukan keempatnya. Limas merupakan bangun ruang, objek dimensi 3.

Analogi diatas dapat dilanjutkan hingga lebih dari 4 titik. Untuk memberikan contoh LDA pada 3 katgori, perhatikan contoh berikut :

Grafik diatas berasal dari data yang sama seperti sebelumnya namun terdapat tambahan observasi-observasi kategori ketiga. Untuk mempertahankan seluruh informasi pada data dan melakukan klasifikasi optimal dengan LDA, diperlukan suatu bidang. Hasil transformasi dari data diatas dengan LDA adalah sebagai berikut :

Klasifikasi ketiga kategori diatas dapat dilakukan hanya dengan menggunakan garis. Dengan kata lain, hanya diskriminan linear pertama yang dipertahankan.

Ketika hanya terdapat 1 dimensi diskriminan, terdapat anggota kategori 2 dan 3 yang saling tindih. Walaupun begitu, ketika akurasi hasil prediksi klasifikasi cukup baik, reduksi dimensi seperti ini sangat membantu. Terutama ketika barhadapan dengan keadaan dimana terdapat lebih dari 3 kategori.


Analisis Diskriminan Linear dan Non-linear


Dalam menganalisis menggunakan metode diskriminan linear, secara umum digunakan asumsi berikut :

  • Data berasal dari distribusi normal. Dalam artian persebaran data adalah "normal". Untuk menguji ini pada data, dapat dilakukan dengan beberapa metode seperti uji shapiro-wilk dan kolmogorov-smirnov.

  • Data memiliki kesamaan variansi antar kategorinya (dikenal dengan istilah homogenitas variansi). Selain jenis persebarannya normal, tingkat persebaran antar grup/label/kategori harus mirip. Salah satu uji yang dapat digunakan untuk menguji ini adalah uji boxM.

Dua asumsi diatas diperlukan dalam membangun fungsi diskriminan linear seperti pada contoh sebelumnya. Asumsi ini seringkali sulit dipenuhi terutama asumsi kedua. Selain dari kesulitan pemenuhan asumsi, bentuk dari diskrimina linear yang "kaku" sering kali hasilnya kurang memuaskan. Seperti pada contoh sebelumnya untuk pengklasifikasian 3 kategori, bahkan dengan mempertahankan 2 diskriminan linear kategori 2 dan 3 masih memiliki anggota yang saling tindih. Hal ini menyebabkan beberapa individu salah terklasifikasi.

Alternatif masalah ini adalah dengan melakukan klasifikasi dengan fungsi diskriminan yang non-linear. Tentu bentuk model ketika batasan linearitas ini hilang, menjadi sangat fleksibel. Dengan arti lain selain tingkat persebaran atau variansi tidak perlu sama, bentuk dari distribusi normal menjadi lebih variatif ke sub kelas-kelasnya (dapat berupa gaussian mixture). Contoh hasil yang bisa didapatkan dengan ini adalah seperti pada blog berikut : A Brief Look at Mixture Discriminant Analysis.

Contoh metode diskriminan nonlinear adalah : kuadratik (QDA), mixture (MDA), fleksibel (FDA), dan Regularized (RDA). Penulis tidak membahas lebih dalam untuk model-model tersebut dalam blog kali ini. Untuk penerapannya, kita akan lakukan analisis dengan data klien.


Penerapan Analisis Diskriminan pada Data Klien


Sesuai dengan permasalahan yang digunakan pada blog-blog sebelum ini, dilakukan analisis diskriminan pada data klien. Tujuan akhir tentunya adalah untuk memprediksi klien mana yang berpotensi mangkir pada setidaknya satu kali pembayaran periode 6 bulan. Menggunakan 12 variabel sebagai fitur, akurasi hasil dari beberapa jenis analisis diskriminan adalah sebagai berikut :

Dari hasil diatas, terlihat model QDA menghasilkan akurasi yang jauh lebih rendah dari model lain. Terkait dari uji asumsinya sendiri, didapatkan bahwa data tidak normal dan variansi juga tidak homogen. Maka dari itu model linear cenderung tidak disarankan. Penulis akhirnya memilih untuk menggunakan model analisis diskriminan fleksibel yang memang cocok untuk data tidak normal serta akurasinya paling tinggi.

Walau akurasinya cukup tinggi, ternyata prediksi untuk kelompok yang berpotensi mangkir cukup buruk. Hal ini dapat dilihat dari confusion matrix berikut :

Akurasi prediksi untuk kelompok klien mangkir pembayaran hanya mencapai 43%. Tentu ini bukanlah hasil yang diinginkan pada prediksi kasus ini.

Setelah melakukan penerapan ini, harapn penulis adalah agar dapat sedikit berbagi pengetahuan dan informasi bagi pembaca. Bagi pembaca yang tertarik memperdalam pengetahuan mengenai analisis diskriminan, dapat melihat referensi penulis dan mengeksplor lebih lanjut sesuai keinginan. Terkait seluruh kode untuk software R yang digunakan dalam blog kali ini dapat diakses di github penulis : Analisis diskriminan.



Referensi

 
 
 

Recent Posts

See All
Analisis Data Kategorik

Dalam penanganan data kategorik, diperlukan metode khusus dan dalam salah satu seri buku terkenal oleh Alan Agresti, metode-metode dalam men

 
 
 
Regularisasi

Metode dalam menangani overfitting model pada machine learning.

 
 
 

Comments


bottom of page