Mengungkap Rahasia Distribusi Data Panduan Praktis Uji Kolmogorov-Smirnov Beserta Contoh Soal

Uji statistik adalah jantung dari pengambilan keputusan berbasis data. Di antara berbagai alat yang tersedia bagi peneliti, Uji Kolmogorov-Smirnov (K-S Test) menonjol sebagai metode non-parametrik yang sangat kuat dan serbaguna. Uji ini dirancang untuk menjawab pertanyaan fundamental: apakah suatu sampel data berasal dari populasi dengan distribusi probabilitas tertentu, atau apakah dua sampel data berasal dari populasi dengan distribusi yang sama?

Artikel ini akan mengupas tuntas konsep Uji Kolmogorov-Smirnov, mulai dari dasar teoritis, langkah-langkah perhitungan, hingga penerapan praktis melalui contoh soal yang mudah dipahami. Fokus utama akan diberikan pada Uji Kolmogorov-Smirnov Satu Sampel (Goodness-of-Fit), yang paling sering digunakan untuk menguji normalitas data.

Baca juga:Kuasai Integral Trigonometri Contoh Soal Ampuh Paham Cepat!

1. Apa Itu Uji Kolmogorov-Smirnov?

Uji Kolmogorov-Smirnov, dinamai dari matematikawan Andrey Kolmogorov dan Nikolai Smirnov, adalah uji statistik non-parametrik yang membandingkan dua distribusi kumulatif:

Uji Satu Sampel (Goodness-of-Fit): Membandingkan Fungsi Distribusi Kumulatif Empiris (ECDF) dari sampel data dengan Fungsi Distribusi Kumulatif Teoritis (CDF) yang spesifik (misalnya, distribusi Normal, Eksponensial, atau Uniform). Uji ini sering digunakan sebagai uji normalitas.
Uji Dua Sampel: Membandingkan ECDF dari dua sampel independen untuk menentukan apakah keduanya berasal dari distribusi yang sama.

Keunggulan utama uji K-S adalah sifatnya yang distribution-free (non-parametrik), artinya ia tidak memerlukan asumsi tentang bentuk distribusi data di awal, menjadikannya fleksibel untuk berbagai jenis data.

Konsep Inti: Jarak Maksimum ($D$)

Statistik uji K-S, yang dinotasikan sebagai $D$, mengukur jarak vertikal maksimum antara dua fungsi distribusi kumulatif yang dibandingkan.

$$D = \sup_x |F_n(x) - F(x)|$$

$F_n(x)$ adalah ECDF dari data sampel.
$F(x)$ adalah CDF teoritis (atau ECDF sampel kedua pada uji dua sampel).
$\sup_x$ adalah supremum (nilai maksimum) dari selisih absolut untuk semua nilai $x$.

Nilai $D$ yang besar menunjukkan perbedaan signifikan antara kedua distribusi, yang berarti hipotesis nol (Ho) kemungkinan akan ditolak.

2. Prosedur Uji Kolmogorov-Smirnov Satu Sampel

Untuk memahami cara kerja uji ini, kita akan fokus pada contoh paling umum: Uji Normalitas Kolmogorov-Smirnov. Tujuannya adalah untuk menentukan apakah data sampel dapat dianggap berasal dari populasi yang berdistribusi normal.

2.1. Merumuskan Hipotesis

Langkah awal dalam pengujian hipotesis adalah merumuskan dua hipotesis:

Hipotesis Nol ($H_0$): Data sampel berasal dari populasi yang berdistribusi normal. (Tidak ada perbedaan signifikan antara ECDF sampel dan CDF Normal teoritis).
Hipotesis Alternatif ($H_a$): Data sampel tidak berasal dari populasi yang berdistribusi normal. (Terdapat perbedaan signifikan).

2.2. Menentukan Tingkat Signifikansi ($\alpha$)

Pilih tingkat signifikansi, yang biasanya $\alpha = 0,05$ (5%). Ini adalah batas risiko kesalahan Tipe I (menolak $H_0$ padahal seharusnya diterima).

2.3. Menghitung Statistik Uji ($D_{hitung}$)

Langkah ini melibatkan perhitungan intensif yang biasanya dilakukan oleh perangkat lunak statistik, namun penting untuk memahami prinsipnya:

Urutkan Data: Urutkan semua nilai data dari yang terkecil ke yang terbesar.
Hitung ECDF ($F_n(x)$): Hitung proporsi data yang nilainya kurang dari atau sama dengan setiap titik data ($x_i$). Misalnya, jika ada $N$ data, untuk data ke-$i$, $F_n(x_i) = i/N$.
Standarisasi Data ($Z$): Hitung nilai $Z$-skor untuk setiap titik data: $Z_i = (x_i - \bar{x}) / s$, di mana $\bar{x}$ adalah rata-rata sampel dan $s$ adalah simpangan baku sampel. Catatan: Jika parameter ($\bar{x}$ dan $s$) diestimasi dari sampel, secara teknis ini adalah Uji Lilliefors, yang menggunakan tabel kritis yang dimodifikasi, tetapi prinsip dasarnya sama.
Hitung CDF Teoritis ($F(x)$): Gunakan tabel distribusi normal baku (tabel $Z$) untuk menemukan probabilitas kumulatif $P(X \le x_i)$ atau $P(Z \le Z_i)$ untuk setiap $Z$-skor. Ini adalah $F(x_i)$.
Hitung Selisih Absolut: Hitung dua selisih absolut untuk setiap titik data:
- $|F_n(x_i) - F(x_i)|$
- $|F_n(x_{i-1}) - F(x_i)|$
Tentukan $D_{hitung}$: Nilai $D_{hitung}$ adalah nilai maksimum (supremum) dari semua selisih absolut yang dihitung di Langkah 5.

2.4. Menentukan Nilai Kritis ($D_{tabel}$)

Nilai kritis ($D_{tabel}$) diperoleh dari Tabel Kolmogorov-Smirnov berdasarkan tingkat signifikansi ($\alpha$) dan ukuran sampel ($N$).

2.5. Membuat Keputusan dan Kesimpulan

Keputusan Uji:
- Jika $D_{hitung} \le D_{tabel}$, maka Gagal Tolak $H_0$.
- Jika $D_{hitung} > D_{tabel}$, maka Tolak $H_0$.
Kesimpulan:
- Gagal Tolak $H_0$: Data sampel berasal dari populasi yang berdistribusi normal (pada tingkat $\alpha$ yang dipilih).
- Tolak $H_0$: Data sampel tidak berasal dari populasi yang berdistribusi normal.

3. Contoh Soal Praktis Uji Normalitas

Untuk mengilustrasikan, mari kita gunakan contoh sederhana (perlu diperhatikan, untuk data yang sangat sedikit, uji K-S mungkin kurang powerful dibandingkan tes lain, tetapi ini baik untuk demonstrasi manual).

Contoh Kasus:

Seorang peneliti ingin menguji apakah data nilai ujian 10 siswa berikut berdistribusi normal pada tingkat signifikansi $\alpha = 0,05$.

Data Nilai Ujian (X):

$65, 78, 88, 70, 92, 60, 80, 85, 75, 90$

Langkah-Langkah Perhitungan (Ringkasan)

| i | $X_i$ (Terurut) | $F_n(x) = i/N$ | $\bar{x}$ | $s$ | $Z_i$ | $F(x)$ (CDF Teoritis) | $|F_n(x) - F(x)|$ | $|F_{n-1}(x) - F(x)|$ | Maks. Selisih |

| :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: |

| 1 | 60 | 0,10 | 78,3 | 10,79 | -1,696 | 0,045 | 0,055 | 0,045 | 0,055 |

| 2 | 65 | 0,20 | 78,3 | 10,79 | -1,233 | 0,109 | 0,091 | 0,009 | 0,091 |

| 3 | 70 | 0,30 | 78,3 | 10,79 | -0,769 | 0,221 | 0,079 | 0,021 | 0,079 |

| 4 | 75 | 0,40 | 78,3 | 10,79 | -0,306 | 0,380 | 0,020 | 0,080 | 0,080 |

| 5 | 78 | 0,50 | 78,3 | 10,79 | -0,028 | 0,489 | 0,011 | 0,089 | 0,089 |

| 6 | 80 | 0,60 | 78,3 | 10,79 | 0,158 | 0,563 | 0,037 | 0,063 | 0,063 |

| 7 | 85 | 0,70 | 78,3 | 10,79 | 0,621 | 0,733 | 0,033 | 0,133 | 0,133 |

| 8 | 88 | 0,80 | 78,3 | 10,79 | 0,899 | 0,816 | 0,016 | 0,116 | 0,116 |

| 9 | 90 | 0,90 | 78,3 | 10,79 | 1,084 | 0,861 | 0,039 | 0,061 | 0,061 |

| 10 | 92 | 1,00 | 78,3 | 10,79 | 1,269 | 0,898 | 0,102 | 0,002 | 0,102 |

Rata-rata ($\bar{x}$) = 78,3, Simpangan Baku ($s$) $\approx 10,79$

Hasil Uji

$D_{hitung}$ (Nilai Maksimum dari kolom 'Maks. Selisih'): $0,133$
$D_{tabel}$ (Nilai Kritis K-S untuk $N=10, \alpha=0,05$): Nilai kritis yang relevan untuk Uji Lilliefors (karena parameter diestimasi dari sampel) adalah $\approx 0,258$. (Jika menggunakan tabel K-S baku untuk sepenuhnya ditentukan, nilainya adalah 0,409). Menggunakan nilai Lilliefors yang lebih tepat: $D_{tabel} = 0,258$.

Keputusan dan Kesimpulan

Keputusan: $D_{hitung} (0,133) \le D_{tabel} (0,258)$. Maka, Gagal Tolak $H_0$.
Kesimpulan: Dengan tingkat signifikansi 5%, data nilai ujian 10 siswa berdistribusi normal. Ini berarti tidak ada bukti statistik yang cukup untuk menyimpulkan bahwa distribusi data tersebut berbeda secara signifikan dari distribusi normal.

4. Kelebihan dan Keterbatasan Uji K-S

Meskipun Uji Kolmogorov-Smirnov merupakan alat yang andal, penting untuk memahami kelebihan dan keterbatasannya:

4.1. Kelebihan

Non-Parametrik: Tidak memerlukan asumsi distribusi populasi awal, menjadikannya fleksibel.
Mudah Diterapkan: Secara konseptual sederhana karena berfokus pada jarak maksimum antara CDF.
Sensitif: Mampu mendeteksi perbedaan lokasi, bentuk, dan sebaran antara distribusi.

4.2. Keterbatasan

Sensitivitas Pusat: Uji K-S cenderung lebih sensitif terhadap perbedaan di pusat distribusi dan kurang sensitif di bagian ekor (t tails) distribusi. Ini berlawanan dengan uji lain seperti Uji Anderson-Darling, yang menempatkan bobot lebih besar pada ekor.
Parameter yang Diketahui: Secara ketat, Uji K-S Satu Sampel mensyaratkan bahwa distribusi teoritis yang dibandingkan harus sepenuhnya ditentukan (yaitu, rata-rata dan simpangan baku diketahui dan tidak diestimasi dari sampel). Jika parameter diestimasi dari sampel (seperti dalam contoh normalitas di atas), harus digunakan modifikasi, seperti Uji Lilliefors, yang memiliki tabel nilai kritis yang berbeda.
Data Kontinu: Uji ini dirancang untuk data dengan distribusi kontinu. Untuk data diskrit, penggunaan uji K-S mungkin kurang akurat atau memerlukan penyesuaian.

Baca juga:FEB Teknokrat Hadirkan Vice President Pegadaian: Bedah Peluang Investasi Emas

5. Peran K-S dalam Analisis Data Lanjut

Uji Kolmogorov-Smirnov, terutama versi dua sampelnya, memegang peranan penting di bidang Data Science dan Machine Learning. Uji ini sering digunakan untuk:

Validasi Model: Membandingkan distribusi hasil prediksi model dengan distribusi data aktual untuk memastikan konsistensi.
Deteksi Drift Model: Membandingkan distribusi data yang masuk ke model saat ini dengan distribusi data pelatihan awal untuk mendeteksi pergeseran ( drift) dalam data dari waktu ke waktu.
A/B Testing Non-Parametrik: Membandingkan hasil dua kelompok eksperimen tanpa mengasumsikan distribusi normal.

Dengan kemampuannya untuk membandingkan keseluruhan bentuk distribusi, bukan hanya parameter seperti rata-rata, Uji Kolmogorov-Smirnov tetap menjadi fondasi penting dalam kotak peralatan statistik untuk memastikan asumsi dasar terpenuhi dan untuk membuat perbandingan data yang kuat. Pemahaman yang kuat tentang contoh soal dan prosedur perhitungannya akan sangat membantu dalam melakukan analisis data yang kredibel dan robust.

Penulis:Zaskia amelia

About Teknokrat

Why Teknokrat?

Quality

Collaboration & Partnerships

Supporting Units

Undergraduate Programs

Master's Programs

International Program

Faculty of Engineering and Computer Science