Cluster Sampling dengan R |
Dalam suatu riset, adakalanya kita tidak mengetahui mengenai kondisi dari populasi yang menjadi target riset. Sebenarnya, bisa saja kita mengambil sejumlah sampel begitu saja tanpa harus menggunakan teknik sampling yang rumit, namun sekali lagi, kendati dinilai sebagai pengambilan sampel yang acak (random), tapi sebenarnya belum sepenuhnya sesuai kaidah random dalam kaidah statistik. Sebab, yang dikatakan random adalah keacakan yang memastikan setiap elemen dalam populasi mempunyai peluang yang sama untuk terpilih.
Sudah tidak tahu kondisi populasi, tiba-tiba kita harus mengambil sampel. Tentu hal ini sangat berisiko terhadap proses bisnis statistik berikutnya karena bisa jadi berujung pada kesimpulan atau inferensi yang salah. Bila kesimpulan yang ditentukan salah, efek dominonya juga menyebabkan kebijakan juga kemungkinan besar salah.
Untuk itu, sebelum memilih sampel, ada baiknya kita memang menentukan terlebih dahulu teknik sampling yang tepat. Tidak melulu harus rumit, namun ketepatan teknik sampling sangat menentukan keakuratan prediksi atau estimasi.
Kita sebelumnya telah mengenal tentang apa itu Simple Random Sampling (SRS), Systematic Random Sampling, Stratified Random Sampling. Dalam artike kali ini, kita akan melanjutkan pembahasan satu lagi teknik sampling yang banyak digunakan dalam riset atau penelitian, yaitu Cluster Sampling atau teknik sampling klaster.
Bila pada teknik sampling sebelumnya kita memerlukan adanya kerangka sampel (sampling frame) sebelum melakukan proses pengambilan sampel atau responden, dalam Cluster Sampling justru sebaliknya. Cluster Sampling merupakan teknik pengambilan sampel ketika kerangka sampel tidak tersedia atau tidak diketahui. Misalnya saja, sebuah riset yang dilakukan terhadap populasi target satu Satuan Lingkungan Setempat (SLS) yang baru terbentuk akibat adanya program reklamasi wilayah.
Dalam konsep Cluster Sampling, kumpulan elemen di dalam populasi target dipandang sebagai unit pengambilan sampel sedemikian rupa sehingga varians (ragam) antar klaster diharapkan sehomogen mungkin dan di dalam klaster seheterogen mungkin. Adapun manfaat dari penerapan Cluster Sampling adalah untuk mengefisiensikan biaya dan mencapai akurasi yang tinggi.
Lantas, bagaimana penerapan Cluster Sampling dengan R?
Berikut sedikit contoh kasus penerapan Cluster Sampling dengan paket program R. Kasus yang kita angkat kali ini adalah sebuah riset untuk memperoleh rata-rata nilai tes Matematika SPMB Politeknik Statistika STIS (Polstat STIS) tahun 2023. Adapun jumlah peserta yang ikut sebanyak 144 orang dan terbagi dalam 36 ruang kelas. Dari 36 kelas, dipilih sebanyak 5 kelas dan masing-masing kelas diambil masing-masing 4 peserta untuk dilihat nilai hasil tes Matematikanya. Diketahui bahwa rata-rata keseluruhan peserta tes Matematika adalah sebesar 75 dengan standard deviasi (sd) sebesar 10. Dari kasus ini, penerapan Cluster Sampling menggunakan R dapat mengikuti langkah-langkah berikut:
#Melakukan pengacakan sebanyak 1 kali
set.seed(1)
#Membuat dataframe
df <- data.frame(id_tes = rep(1:36, each=4),
nilai = rnorm(144, mean=75, sd=10))
#Melihat sekilas data
head(df)
## id_tes nilai
## 1 1 68.73546
## 2 1 76.83643
## 3 1 66.64371
## 4 1 90.95281
## 5 2 78.29508
## 6 2 66.79532
#Memilih 5 ruangan dari 36 ruangan dan memilih masing-masing 4 peserta tes pada tiap ruangan
klaster <- sample(unique(df$id_tes), size=4, replace=F)
#Mendefinisikan sampel terpilih untuk masing-masing ruangan tes
sampel <- df[df$id_tes %in% klaster, ]
#Melihat peserta terpilih di 5 ruangan
table(sampel$id_tes)
##
## 7 8 9 26
## 4 4 4 4
Dari hasil di atas, terlihat bahwa klaster terpilih adalah klaster 7, 8, 9, dan 26 dan masing-masing terdiri atas 4 peserta sebagai responden untuk kemudian diperoleh rata-ratanya serta standar erornya.
Demikian sedikit sharing kita kali ini. Simak dan ikuti terus setiap artikel terbaru dan unik dalam blog ini. Selamat memahami dan mempraktikkan!