Data dan Statistika

Paham Statistika
Jan 21, 2022
8 min read

Updated: Jan 27, 2022

Hingga saat ini, statistika telah berkembang hingga titik dimana kehidupan banyak orang sangat bergantung padanya. Maka dari itu, pada kesempatan kali ini penulis ingin sejenak membahas kembali dasar-dasar dalam dunia statistika. (Ditulis oleh : HN Rizka, Januari 2022)

Ada Apa dengan Data?

Data merupakan hal yang bahkan mungkin bagi kebanyakan orang selalu terdengar setiap harinya. Data sendiri merupakan istilah untuk kumpulan dari informasi. Kumpulan informasi ini sebenarnya sangatlah luas. Mulai dari rekaman percakapan, pembelian belanja pelanggan supermarket, informasi pasien rumah sakit, video berita televisi, dan masih banyak lagi. Dari beberapa contoh yang disebutkan, penulis ingin memberikan gambaran bahwa data tidak terbatas hanya pada bentuk teks tertulis. Data dapat memiliki bentuk berupa suatu gambar statis ataupun dinamis hingga berupa suara. Segala jenis kumpulan informasi, merupakan suatu data. Hal ini mungkin masih sulit dibayangkan bagi beberapa orang. Namun, kenyataannya sudah banyak institusi yang memanfaatkan data dengan jenis non-teks tersebut.

Bentuk data yang variatif dan mampu direkam ini tentu mendatangkan pertanyaan, apa yang bisa kita dapatkan darinya? Bayangkan anda memiliki kamera, tentu anda akan menggunakannya sebagai sarana hiburan dan merekam momen indah yang ingin anda abadikan. Entah dalam bentuk foto ataupun video. Namun, kenyataannya, foto dan video saat ini sangatlah berguna bagi aktivitas pekerjaan dan profesional seperti polisi. Salah satu manfaat informasi menggunakan rekaman adalah seperti pada interogasi yang dapat digunakan untuk mendeteksi kebohongan terduga pelaku. Selain itu, bentuk rekaman penyadapan juga digunakan sebagai barang bukti yang diakui keabsahannya di pengadilan. Tentu, ini memberikan gambaran seberapa dahsyatnya kekuatan dari data.

Data sendiri sebenarnya tidak terlalu berguna ketika orang-orang yang memilikinya tidak memilki "alat" untuk memanfaatkannya. Dalam contoh kasus polisi sebelumnya, "alat" yang dimaksudkan bukan hanya alat rekam dan penyajinya. Namun juga teknik dalam menguraikannya. Katakan jika polisi ingin mengetahu jika seseorang telah berbohong dalam interogasi, maka psikologi manusia diperlukan untuk menganalisis perilaku terduga. Untuk kasus penyadapan, teknik menyadap itu sendiri memerlukan perhatian khusus. Selain itu, terkadang dialog orang-orang yang disadap perlu dianalisis ketika terdapat penggunaan istilah-istilah internal mereka. Prosedur-prosedur penguraian seperti ini sebenarnya sangatlah bergantung pada manusianya dengan kata lain subjektivitas sangatlah kuat. Artinya, sering terjadi keadaan dimana ketersediaan data melimpah namun untuk mencapai informasi yang berguna, diperlukan alat bantu yang tidak bergantung pada orang yang menggunakan.

Permasalahan tersebut sebenarnya merupakan pencetus era yang dikenal sebagai era "big data". Semua jenis data dan dalam jumlah yang banyak telah terekam dan tersimpan di internet. Namun, semua informasi ini sangatlah berantakan dan jumlah yang sangat besar sehingga banyak yang mengatakan bahwa ini merupakan sampah data. Hal ini kemudian berubah ketika statistika mulai diperkenalkan dalam bentuk teknik pengolahan data seperti regresi.

“a thousand observations with statistics is more useful than millions of observations without statistics”

Data dalam Statistika

Statistika merupakan istilah yang mangacu pada bidang keilmuan yang menyangkut tentang bagaimana mengumpulkan data kemudian melakukan analisis untuk mendapatkan interpretasi dari data tersebut. Di era kuno, statistik sangat terbatas pada metode-metode yang digunakan untuk data ukuran kecil dan variabel sedikit. Namun, seiring perkembangan kemampuan komputasi, batasan tersebut menjadi hilang dan bahkan statistika di era sekarang telah digunakan untuk menganalisis segala bentuk informasi mulai dari teks hingga visual dan audio.

Terkait hubungan antara data dengan statistika, penulis mengibaratkannya seperti sayur dengan alat memasak. Data sendiri bukanlah sesuatu yang tidak bernilai. Bahkan hanya dengan menyajikan data dengan merapikannya, data sebenarnya mampu memberikan informasi yang berguna. Namun, dengan statistika, data mampu memberikan sesuatu yang lebih. Bahkan tidak salah jika mengatakan bahwa informasi dari data yang diolah dengan statistika mampu mempengaruhi kualitas suatu entitas.

Statistika meningkatkan kualitas informasi yang ada pada data. Peningkatan ini dapat dilihat seperti pada perusahaan yang memanfaatkan analisis statistika dalam pengembangan bisnisnya. Contohnya seperti beberapa start-up E-Commerce ternama (e.g : tokopedia dan shopee). Promosi bisnis seperti WIB (waktu indonesia belanja) oleh tokopedia dan promo tanggal-bulan sama oleh shopee, dicetuskan oleh analis bisnis masing-masing. Kedua jenis promosi ini memiliki efek signifikan dalam mendorong transaksi melalui masing-masing aplikasi. Tentu ini hanyalah contoh kecil dari pemanfaatan statistika untuk kepentingan bisnis.

Contoh penerapan lain seperti keputusan pemerintah dalam melakukan lock down dimana ini merupakan langkah yang telah disarankan oleh epidemiolog dalam rangka menurunkan tingkat penularan COVID-19. Epidemiologi sendiri menggunakan beberapa jenis teknik analisis statistik konvensional seperti regresi dan analisis variansi. Bahkan jika melihat bidang kesehatan secara keseluruhan, statistika merupakan salah satu tumpuan utama untuk menunjang pekerjaan profesi-profesi di bidang tersebut. Inti yang ingin penulis tekankan adalah, data dan statistika menjadi 2 keberadaan yang tak terpisahkan dan mampu mempengaruhi kehidupan banyak manusia.

Istilah - Istilah dalam Statistika

Dalam melengkapi pembahasan kali ini, penulis juga ingin menambahkan informasi terkait beberapa istilah yang banyak digunakan dalam statistika.

Populasi dan Sampel

Pembahasan pertama memiliki keterkaitan dengan data. Misalkan dimiliki suatu objek yang akan dianalisis. Dalam statistika, bentuk keseluruhan dari data merupakan suatu populasi. Untuk menghindari kekeliruan, keseluruhan yang dimaksud bukan hanya data yang anda miliki namun semua yang masuk dalam kriteria sebagai objek penelitian tersebut. Sebagai contoh paling mudah adalah ketika mengamati "tinggi badan siswa SMA Negeri di kota Semarang". Populasi dalam kasus tersebut adalah seluruh siswa SMA Negeri di Kota Semarang. Terkait penelitian tersebut, data yang diambil tidak harus mengikutsertakan keseluruhan anggota populasi. Bahkan, salah satu manfaat terbesar statistika adalah analisis hanya memerlukan sebagian dari populasi tersebut. Tentu ini juga merupakan sesuatu yang harusnya dapat dipahami secara intuitif. Penjelasan singkatnya adalah, berdasarkan definisi populasi, salah satu tujuan keberadaan statistika adalah tidak diperlukannya pengumpulan data keseluruhan dari populasi. Sehingga, hanya dengan mengumpulkan beberapa "contoh" dari populasi, statistika mampu menjelaskan keseluruhan informasi yang ada di populasi. "Contoh" inilah yang dikenal sebagai sampel.

Terkait jenis populasi sendiri, terdapat beberapa tipe pengelompokan. Salah satunya adalah pembedaan populasi berdasarkan aksesibilitasnya. Populasi yang diharapkan sebagai lingkup perumuman dalam menarik kesimpulan di statistika dikenal dengan nama populasi target. Contohnya seperti ilustrasi sebelumnya, populasi target adalah seluruh siswa SMA Negeri di Kota Semarang. Sedangkan jenis populasi lain adalah populasi yang dapat dijangkau. Hal ini mungkin dikarenakan kendala-kendala diluar kemampuan peneliti seperti lokasi dan waktu. Dalam kasus penelitian tinggi badan sebelumnya, misalkan peneliti hanya memiliki akses pada siswa SMA Negeri 3 Semarang. Maka populasi terjangkau peneliti hanyalah seluruh siswa SMA Negeri 3 Semarang, dan karena keterbatasan tersebut perumuman penelitian hanya dapat digunakan untuk populasi terjangkau tersebut.

Dalam mengambil sampel dari populasi, tentu kita tidak ingin data yang mirip/seragam. Seperti contoh pada survei kesehatan lingkungan masyarakat DKI Jakarta. Ketika sampel hanya diambil dari kawasan Jakarta Timur, tentu ini akan menjadi sampel yang kurang merepresentasikan keseluruhan DKI Jakarta. Hal ini karena kawasan Jakarta Timur cenderung memiliki tingkat kebersihan yang lebih tinggi dibandingkan kawasan lain di Jakarta. Pengambilan sampel untuk kasus ini harus dapat merepresentasikan baik dari wilayah yang cenderung kotor maupun wilayah yang bersih, sehingga didapatkan sampel yang merepresentasikan keadaan semua wilayah di Jakarta. Jenis sampel dapat dibagi menjadi dua : sampel pewakildan sampel acak. Sampel pewakil merupakan sampel yang diambil berdasarkan kriteria peneliti. Artinya, pemilihan anggota sampel sangat subjektif dan bergantung pada peneliti. Sampel acak adalah ketika peneliti mampu mengidentifikasi seluruh anggota populasi, lalu secara acak mengambil sampel dalam populasi. Dengan kata lain, semua anggota populasi memiliki peluang untuk terpilih menjadi sampel. Jenis sampel ini memiliki kelebihan karena analisis statistika yang dimungkinkan lebih beragam dan hasil yang didapatkan cenderung lebih konsisten dan akurat daripada ketika menganalisis sampel pewakil.

Parameter dan Statistik

Dalam statistika, tujuan paling sederhana yang ingin dicapai adalah mempelajari populasi. Bentuk ukuran atau angka yang ada di populasi memiliki istilah yang dikenal sebagai parameter. Seperti pada contoh penelitian kesehatan lingkungan sebelumnya, indeks atau angka yang mewakili tingkat kesehatan lingkungan DKI Jakarta inilah yang merupakan salah satu bentuk parameter tersebut.

Dalam mempelajari populasi, seperti yang telah dibahas sebelumnya, statistika bekerja menggunakan sampel atau contoh dari populasi. Sehingga ukuran-ukuran yang dihitung menggunakan sampel inilah yang digunakan untuk mewakili ukuran di populasi. Dalam ilustrasi kesehatan lingkungan sebelumnya, misalkan sampel diambil dari beberapa kecamatan di DKI Jakarta, rata-rata indeks kesehatan lingkungan beberapa kecamatan inilah yang digunakan untuk mewakili indeks kesehatan lingkungan seluruh wilayah DKI Jakarta. Dalam hal ini, nilai wakil tersebut diistilahkan sebagai statistik dan prosedur dalam mewakili ini juga dikenal sebagai prosedur estimasi parameter.

Pemusatan Data

Didalam bekerja menggunakan statistika, terdapat beberapa ukuran yang dikenal sebagai ukuran pusat atau pemusatan data. Sesuai dengan namanya, pemusatan ini adalah pusat bagi data yang diteliti. Tentu untuk mendefinisikan pusat ini ada beberapa cara dan yang paling banyak ditemui adalah : rata-rata/mean, nilai tengah/median, dan mayoritas/modus.

Rata-rata atau dikenal juga sebagai mean merupakan jumlahan seluruh data yang tiap-tiap datumnya diberikan bobot. Bentuk paling umum adalah seperti yang banyak dikenal :

Formula diatas merupakan nilai mean dengan bobot yang sama, yaitu satu per banyaknya data.

Nilai tengah dalam statistika merujuk pada nilai tengah setelah data diurutkan. Nilai ini merupakan nilai yang memiliki posisi yang membagi data menjadi dua. Contoh ketika data memilki tiga pengamatan, maka pengamatan kedua merupakan nilai tengahnya. Sedangkan ketika terdapat empat pengamatan maka nilai tengahnya adalah pengamatan ke-2,5 atau dihitung dengan rata-rata dari nilai pengamatan kedua dan ketiga.

Modus merupakan nilai yang sering muncul, dengan kata lain nilai mayoritas. Ketika terdapat beberapa nilai mayoritas, maka himpunan nilai-nilai mayoritas tersebut adalah modus data.

Persebaran Data

Setelah membahas mengenai ukuran pusat, statistika juga memperhatikan persebaran data. Konteks persebaran disini adalah bagaimana tingkat perbedaan antara satu nilai dengan lainnya didalam data. Misalkan terdapat data nilai dari dua kelas berbeda seperti berikut :

Data 1 : 90, 91, 93, 88, 89, 90

Data 2 : 76, 98, 62, 50, 86, 34

Dalam kelas pertama, terlihat bahwa nilai-nilainya memiliki perbedaan yang sangat kecil antara satu dengan lainnya. Bandingkan dengan kelas kedua yang memiliki selisih yang sangat besar antar nilai-nilainya. Dari ilustrasi tersebut, dapat dibayangkan contoh data dengan

Statistika secara esensial lebih banyak tertarik dengan data yang tersebar. Hal ini karena dalam prosedur estimasi, ketika data yang dimiliki memiliki persebaran yang kecil, kecurigaan terhadap buruknya pengambilan sampel akan tinggi. Jika kecurigaan tersebut benar, maka data sampel tentu tidak baik untuk digunakan sebagai representasi data populasi.

Terdapat beberapa jenis ukuran persebaran data, namun bentuk paling sering digunakan adalah variansi dan standar deviasi. Variansi dan standar deviasi sendiri merupakan dua bentuk yang saling terkait dimana inti dari kedua ukuran ini adalah rataan selisih tiap nilai dalam data dengan mean.

Variabel/Peubah

Sederhananya, variabel adalah konsep, kualitas, karakteristik, atribut, atau sifat-sifat dari suatu objek yang diamati. Seperti yang telah diketahui, karena data tidak terbatas hanya berupa angka atau bahkan hanya berupa tulisan, variabel memiliki beberapa jenis. Namun, pembedaan pertama untuk jenis variabel dapat digolongkan menjadi : kualitatif dan kuantitatif. Sesuai namanya masing-masing, pembedaan ini didasarkan pada bagaimana variabel tersebut dicatat/direkam. Untuk variabel kuantitatif tentunya dapat dicatat berupa bilangan atau urutan. Sedangkan variabel kualitatif, penulis lebih sering melihat ini sebagai perumuman untuk semua bentuk yang tidak memiliki alat ukur baku dan urutan/hierarki. Dalam statistika konvensional, bentuk variabel kualitatif biasanya dicatat dengan kategori seperti : jenis kelamin dan golongan darah.

Dalam menangani pencatatan dan analisis, terdapat suatu teknik pemetaan yang digunakan dalam statistika. Pemetaan ini dikenal sebagai variabel acak. Variabel acak memiliki peran dalam memudahkan peneliti untuk menganalisis data sedemikian pencatatan suatu objek penelitian dapat dikonversi ke persamaan matematika. Contoh paling mudah adalah kejadian pelemparan koin. Jika dibayangkan, hasil dari lempar koin tentunya bukan berbentuk angka ataupun memiliki hierarki tertentu. Namun, dengan menerapkan variabel acak, pengamatan ini berubah menjadi suatu pengamatan yang dapat dituliskan ke bentuk persamaan matematika. Berikut adalah detailnya :

Misalkan ingin diamati apakah suatu koin merupakan koin yang adil, dengan kata lain peluang masing-masing sisi untuk muncul kurang lebih sama. Maka dari itu, diterapkan variabel acak dengan prosedur : 
- Tetapkan bagian "muka" dan "belakang" dari koin
- "Sukses" dalam pelemparan koin adalah ketika sisi muka muncul
- "Gagal" adalah ketika sisi belakang muncul
- Variabel acak yang dapat anda gunakan adalah "banyaknya sukses" atau "banyaknya gagal"
Dengan menetapkan  variabel acak tersebut, anda selanjutnya dapat melempar koin beberapa kali untuk mendapat nilai variabel acak dan menganalisis apakah koin tersebut adil. Untuk detail lebih lanjut mengenai pengujian keadilan suatu koin dapat anda lihat di :
https://en.wikipedia.org/wiki/Checking_whether_a_coin_is_fair

Didalam menganalisis variabel acak, statistika menggunakan suatu pemetaan untuk memberikan gambaran mengenai peluang kejadian tertentu untuk muncul. Pemetaan ini dikenal sebagai fungsi distribusi. Fungsi distribusi sangat berguna salah satunya adalah ketika melakukan estimasi parameter. Fungsi distribusi dapat digunakan untuk menghitung tingkat kesalahan nilai statistik yang digunakan. Kesalahan statistik ini juga dikenal sebagai bias.

Bias

Prosedur estimasi parameter memiliki salah satu kendala yang biasa terjadi yaitu bias. Bias merupakan istilah untuk kesalahan atau penyimpangan, lebih tepatnya dalam kasus statistika bias ini terkait dengan penyimpangan nilai statistik. Dengan kata lain, ketika terdapat bias pada suatu statistik, estimasi parameter menggunakan statistik tersebut akan cenderung tidak sesuai dengan nilai parameter. Kejadian ini dapat dicontohkan dengan penelitian kesehatan lingkungan sebelumnya dengan sampel yang hanya berasal dari Jakarta Timur. Statistik indeks kesehatan lingkungan yang didapatkan cenderung lebih tinggi daripada parameter indeks kesehatan lingkungan di DKI Jakarta.

Bias sebenarnya tidak hanya terjadi karena kesalahan dair manusia atau penggunanya, namun juga dapat berasal dari sifat statistik tersebut. Salah yang paling dikenal dari statistik bias ini ada pada distribusi rata-rata sampling.