Dalam statistik, outlier atau “pencilan” adalah sebuah datum yang menyimpang sangat jauh dari datum lainnya di dalam satu sampel atau kumpulan datum (kumpulan datum disebut data). Seringkali, pencilan di dalam satu kumpulan datum dapat menjadi peringatan bagi ahli statistik akan adanya ketidaknormalan atau kesalahan eksperimen pada pengukuran yang diambil, yang dapat membuat ahli statistik membuang pencilan tersebut dari kumpulan datum. Jika ahli statistik membuang pencilan dari kumpulan datum, kesimpulan yang diambil dari penelitian dapat menjadi sangat berbeda. Oleh karena itu, mengetahui cara menghitung dan menangalisis pencilan sangat penting untuk memastikan pengertian yang benar dari sebuah kumpulan datum statistik.
Langkah
-
Pelajari cara mengenali datum yang berpotensi menjadi pencilan. Sebelum kita memutuskan apakah akan membuang datum pencilan dari kumpulan datum atau tidak, tentunya kita harus mengenali datum mana yang berpotensi menjadi pencilan. Secara umum, pencilan adalah datum yang menyimpang sangat jauh dari datum-datum lainnya di dalam satu kumpulan datum—dengan kata lain, pencilan berada di “luar” datum-datum lainnya. Biasanya mudah untuk mendeteksi pencilan pada tabel data atau (khususnya) pada grafik. Jika satu kumpulan datum dijabarkan secara visual dengan grafik, datum pencilan akan tampak berada “sangat jauh” dari datum-datum lainnya. Jika, misalnya, sebagian besar datum pada satu kumpulan datum membentuk garis lurus, datum pencilan tidak akan dapat secara wajar ditafsirkan turut membentuk garis tersebut.
- Mari melihat sebuah kumpulan datum yang mewakili suhu 12 benda berbeda di dalam sebuah ruangan. Jika 11 benda memiliki suhu sekitar 70 Fahrenheit (21 derajat Celsius), namun benda ke-12, sebuah oven, mempunyai suhu 300 Fahrenheit (150 derajat Celsius), dapat langsung diketahui bahwa suhu oven tersebut sangat mungkin menjadi pencilan.
-
Susun datum-datum dalam satu kumpulan datum dari yang terendah sampai yang tertinggi. Langkah pertama untuk menghitung pencilan dalam satu kumpulan datum adalah dengan menemukan nilai median (nilai tengah) kumpulan datum tersebut. Tugas ini menjadi sangat sederhana jika datum-datum dalam satu kumpulan datum disusun dari yang paling kecil ke yang paling besar. Jadi, sebelum melanjutkan, susunlah datum-datum dalam satu kumpulan datum seperti itu.
- Mari kita melanjutkan contoh di atas. Ini adalah kumpulan datum kita yang mewakili suhu beberapa benda di dalam sebuah ruangan: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Jika kita menyusun datum-datum tersebut dari yang terendah sampai yang tertinggi, urutan datum tersebut menjadi: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
-
Hitung median dari kumpulan datum tersebut. Median dari sebuah kumpulan datum yaitu sebuah datum di mana separuh datum lainnya berada di atas datum tersebut dan separuh sisanya berada di bawah datum tersebut—pada dasarnya, datum tersebut adalah datum yang berada di “tengah” kumpulan datum. Jika banyaknya datum dalam kumpulan datum adalah ganjil, sangat mudah menemukannya—mediannya yaitu datum yang memiliki angka yang sama di atas dan di bawahnya. Namun, jika banyaknya datum pada kumpulan datum adalah genap, maka, karena tidak ada satu datum yang pas di tengah, 2 datum yang ada di tengah dirata-rata untuk menemukan mediannya. Perlu dicatat bahwa, saat menghitung pencilan, median biasanya diberi variabel Q2—ni karena Q2 berada di antara Q1 dan Q3, kuartil bawah dan atas, yang akan kita bahas nanti.
- Jangan bingung dengan kumpulan datum yang banyaknya datum adalah genap—rata-rata dari 2 datum di tengah sering kali akan memunculkan angka yang tidak ada dalam kumpulan datum itu sendiri—ini tidak apa-apa. Namun, jika 2 datum di tengah adalah angka yang sama, rata-ratanya, tentunya, juga akan menjadi angka yang sama, yang juga tidak masalah.
- Dalam contoh tadi, kita mempunyai 12 datum. 2 datum di tengah yaitu datum ke-6 dan 7—masing-masing 70 dan 71. Jadi, median dari kumpulan datum kita yaitu rata-rata dari 2 angka ini: ((70 + 71) / 2), = 70.5 .
-
Hitung kuartil bawah. Nilai ini, yang kita beri variabel Q1, adalah datum yang membawahi 25 persen (atau seperempat) datum dari datum-datum yang ada. Dengan kata lain, ini adalah datum yang membagi dua datum-datum yang ada di “bawah” median. Jika banyaknya datum di bawah median adalah genap, Anda sekali lagi harus merata-rata 2 datum di tengah untuk menemukan Q1, seperti yang harus Anda lakukan untuk menemukan median itu sendiri.
- Pada contoh kita, ada 6 datum terletak di atas median, dan 6 datum terletak di bawah median. Ini berarti bahwa, untuk menemukan kuartil bawah, kita akan perlu merata-rata 2 datum di tengah dari 6 datum di bawah median. Datum ke-3 dan 4 dari 6 datum di bawah median keduanya sama-sama 70. Jadi, rata-ratanya yaitu ((70 + 70) / 2), = 70 . 70 menjadi Q1 kita.
-
Hitung kuartil atas. Nilai ini, yang kita beri variabel Q3, adalah datum yang di atasnya terdapat 25 persen datum dari banyaknya datum yang ada dalam kumpulan datum. Menemukan Q3 hampir sama dengan menemukan Q1, kecuali bahwa, dalam hal ini, kita melihat datum-datum di “atas” median, bukannya di bawah median.
- Melanjutkan contoh kita di atas, 2 datum di tengah dari 6 datum di atas median adalah 71 dan 72. Rata-rata dari 2 datum ini adalah ((71 + 72) / 2), = 71,5 . 71,5 menjadi Q3 kita.
-
Mencari jarak interkuartil. Sekarang setelah kita menemukan Q1 dan Q3, kita perlu menghitung jarak antara dua variabel ini. Jarak dari Q1 ke Q3 ditemukan dengan cara mengurangi Q1 dari Q3. Nilai yang Anda dapat untuk jarak interkuartil sangat penting untuk menentukan batasandatum-datum non-pencilan dalam kumpulan datum Anda.
- Dalam contoh kita, nilai Q1 dan Q3 kita masing-masing adalah 70 and 71,5. Untuk menemukan jarak interkuartil, kita mengurangi Q3 - Q1 = 71,5 - 70 = 1,5 .
- Perlu dicatat bahwa ini juga berlaku bahkan jika Q1, Q3, atau keduanya adalah angka negatif. Contohnya, jika nilai Q1 kita adalah -70, jarak interkuartil kita yang benar akan menjadi 71,5 - (-70) = 141,5.
-
Temukan “pagar dalam” pada kumpulan datum. Pencilan ditemukan dengan memeriksa apakah datum jatuh pada batasan-batasan angka yang disebut “pagar dalam” dan “pagar luar”. Datum yang jatuh di luar pagar dalam dari kumpulan datum disebut sebagai “pencilan minor”, sedangkan datum yang jatuh di luar pagar luar disebut sebagai “pencilan mayor”. Untuk menemukan pagar dalam pada kumpulan datum Anda, pertama-tama, kalikan jarak interkuartil dengan 1,5. Lalu, tambahkan hasilnya dengan Q3 dan juga kurangi dari Q1. Kedua nilai yang didapat adalah batas-batas pagar dalam pada kumpulan datum Anda.
- Pada contoh kita, jarak interkuartil adalah (71,5 - 70), atau 1,5. Kalikan 1,5 dengan 1,5 yang hasilnya adalah 2,25. Kita tambahkan angka ini ke Q3 dan kita kurangi Q1 dengan angka ini untuk menemukan batas-batas pagar dalam seperti berikut:
- 71,5 + 2,25 = 73,75
- 70 - 2,25 = 67,75
- Jadi, batas-batas pagar dalam kita yaitu 67,75 dan 73,75 .
- Dalam kumpulan datum kita, hanya suhu oven, 300 Fahrenheit - yang berada di luar batas-batas tersebut dan karenanya datum ini menjadi pencilan minor. Namun, kita masih belum menghitung apakah suhu ini adalah pencilan mayor, jadi jangan mengambil kesimpulan sebelum kita melakukan penghitungan.
- Pada contoh kita, jarak interkuartil adalah (71,5 - 70), atau 1,5. Kalikan 1,5 dengan 1,5 yang hasilnya adalah 2,25. Kita tambahkan angka ini ke Q3 dan kita kurangi Q1 dengan angka ini untuk menemukan batas-batas pagar dalam seperti berikut:
-
Temukan “pagar luar” pada kumpulan datum. Ini dilakukan dengan cara yang sama seperti menemukan pagar dalam, kecuali bahwa jarak interkuartil dikalikan dengan 3, bukannya 1,5. Hasilnya kemudian ditambahkan pada Q3 dan dikurangi dari Q1 untuk menemukan batas atas dan batas bawah dari pagar luar.
- Pada contoh kita, mengalikan jarak interkuartil dengan 3 menghasilkan (1,5 x 3), atau 4,5. Kita menemukan batas-batas pagar luar dengan cara yang sama seperti sebelumnya:
- 71,5 + 4,5 = 76
- 70 - 4,5 = 65,5
- Batas-batas pagar luar yaitu 65.5 and 76 .
- Datum-datum yang terletak di luar batas pagar luar disebut sebagai pencilan mayor. Pada contoh ini, suhu oven, 300 Fahrenheit, jelas-jelas terletak di luar pagar luar, jadi datum ini “pasti” merupakan pencilan mayor.
- Pada contoh kita, mengalikan jarak interkuartil dengan 3 menghasilkan (1,5 x 3), atau 4,5. Kita menemukan batas-batas pagar luar dengan cara yang sama seperti sebelumnya:
-
Gunakan penilaian kualitatif untuk menentukan apakah akan “membuang” datum pencilan atau tidak. Dengan menggunakan metode yang dijelaskan di atas, dapat ditentukan apakah suatu datum adalah datum minor, datum mayor, atau bukan pencilan sama sekali. Namun, jangan salah—menemukan sebuah datum sebagai pencilan hanya menandai datum tersebut sebagai “calon” untuk dibuang dari kumpulan datum, bukan sebagai datum yang “harus” dibuang. “Alasan” yang menyebabkan datum pencilan menyimpang dari datum-datum lainnya dalam satu kumpulan datum sangat penting untuk menentukan apakah akan membuangnya atau tidak. Secara umum, pencilan yang disebabkan oleh suatu kesalahan—kesalahan dalam pengukuran, pencatatan, atau perencanaan percobaan, misalnya—dapat dibuang. Di sisi lain, pencilan yang bukan disebabkan oleh kesalahan dan yang menunjukkan adanya informasi atau tren baru yang tidak diprediksi sebelumnya biasanya “tidak” dibuang.
- Kriteria lain sebagai pertimbangan yaitu apakah pencilan berpengaruh besar pada rata-rata sebuah kumpulan datum, yaitu apakah pencilan mengacaukannya atau membuatnya tampak keliru. Ini sangat penting untuk dipertimbangkan jika Anda bermaksud menarik kesimpulan dari rata-rata kumpulan data Anda.
- Mari kita pelajari contoh kita. Dalam contoh tersebut, karena tampaknya “sangat” tidak mungkin bahwa oven mencapai suhu 300 Fahrenheit melalui kekuatan alami yang tidak terprediksi, kita dapat menyimpulkan dengan hampir-pasti bahwa oven tersebut secara tidak sengaja dibiarkan menyala, yang menghasilkan kelainan datum berupa suhu yang tinggi. Juga, jika kita tidak membuang pencilan, rata-rata kumpulan datum kita adalah (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300)/12 = 89,67 Farenheit (32 derajat Celsius), sedangkan rata-ratanya jika kita membuang pencilan adalah (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73)/11 = 70,55 Farenheit (21 derajat Celsius).
- Karena pencilan ini disebabkan oleh kesalahan manusia dan karena tidak tepat jika mengatakan bahwa rata-rata suhu ruangan mencapai hampir 90 Farenheit (32 derajat Celsius), kita lebih baik memilih untuk “membuang” pencilan kita.
-
Ketahui pentingnya (terkadang) mempertahankan pencilan. Meskipun beberapa pencilan harus dibuang dari kumpulan datum karena menyebabkan eror dan/atau membuat hasil menjadi tidak akurat atau keliru, beberapa pencilan harus dipertahankan. Jika, misalnya, sebuah pencilan tampaknya didapat secara alami (artinya, bukan hasil dari suatu kesalahan) dan/atau memberikan suatu pandangan baru pada fenomena yang sedang diteliti, pencilan tidak boleh dibuang dari kumpulan datum. Penelitian ilmiah biasanya merupakan situasi yang sangat sensitif saat berkaitan dengan pencilan—salah membuang pencilan dapat berarti membuang informasi yang menunjukkan tren atau penemuan baru.
- Sebagai contoh, katakan saja kita sedang mendesain sebuah obat baru untuk memperbesar ukuran ikan di dalam suatu tambak ikan. Kita akan menggunakan kumpulan datum kita yang lama ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), kecuali, kali ini, setiap datum akan mewakili berat seekor ikan (dalam gram) setelah diberi obat eksperimen yang berbeda dari lahir. Dengan kata lain, obat pertama menyebabkan seekor ikan mempunyai berat 71 gram, obat kedua menyebabkan ikan yang lain mempunyai berat 70 gram, dan seterusnya. Dalam kondisi ini, 300 “masih” merupakan pencilan besar, tetapi kita seharusnya tidak membuang datum ini karena, dengan anggapan bahwa datum ini didapat bukan karena sebuah kesalahan, datum ini mewakili sebuah kesuksesan dalam penelitian tersebut. Obat yang dapat membuat ikan memiliki berat 300 gram bekerja dengan lebih baik daripada semua obat lainnya, jadi datum ini sebenarnya adalah yang “paling” penting dalam kumpulan datum kita, bukannya sebagai yang “paling tidak penting”.
Iklan
Tips
- Saat pencilan ditemukan, usahakan untuk mencari penyebab keberadaan pencilan tersebut sebelum memutuskan untuk membuang pencilan itu dari kumpulan datum; pencilan dapat menunjukkan kesalahan atau ketidaknormalan pengukuran dalam distribusi data.
Hal yang Anda Butuhkan
- Kalkulator