Two Stage Sampling dengan R |
Seiring dengan perkembangan teknik pengambilan sampel, para ahli statistika kemudian mengkombinasikan antara satu teknik sampling dengan teknik yang lainnya. Hal ini dilakukan mengingat dalam kenyataannya , karakteristik populasi sesungguhnya tidaklah ideal sehingga memerlukan lebih dari satu tahapan dalam menentukan sampel yang memenuhi aspek keterwakilan populasi.
Ada banyak kombinasi teknik sampling yang kemudian diaplikasikan. Namun pada prinsipnya kombinasi teknik sampling itu hanya sama atau berbeda cara di setiap tahapannya sedemikian rupa sehingga diperoleh sampel pada tahapan akhir. Bila tahapan yang dibutuhkan sebanyak 2 tahap, maka inilah yang kemudian diistilahkan dengan Two Stage Sampling (TSS). Kalau tahapannya berjumlah 3, maka disebut Three Stage Sampling dan seterusnya.
Adapun teknik mengambil sampel di setiap tahapan sendiri telah kita pelajari bersama di sini [1], [2], [3], [4], dan [5]. Sebagai contoh saja, pada artikel kali ini kita akan mempraktikkan Two Stage Sampling kombinasi antara Simple Random Sampling (SRS) dan SRS (SRS-SRS) tanpa pengembalian (without replacement, wor). Data yang kita gunakan merupakan data Indeks Pembangunan Manusia atau HDI Kabupaten/Kota se-Jawa Timur tahun 2022 yang dapat diunduh pada tautan berikut.
Setelah datanya telah siap, implementasi Two Stage Sampling SRS-SRS wor dengan R dapat mengikuti langkah-langkah berikut:
#Aktivasi package
library(readxl)
#Import data
data <- read_excel("ipmjatim.xlsx")
#Melihat Sekilas data
head(data)
## # A tibble: 6 x 2
## Kako IPM
## <chr> <dbl>
## 1 Kabupaten Pacitan 69.4
## 2 Kabupaten Ponorogo 71.9
## 3 Kabupaten Trenggalek 71
## 4 Kabupaten Tulungagung 74.1
## 5 Kabupaten Blitar 71.9
## 6 Kabupaten Kediri 73.5
#Menentukan jumlah sampel pada tahap 1
n1 <- 30
#Stage 1: Simple Random Sampling Without Replacement
samp1 <- sample(nrow(data), n1, replace = FALSE)
# Mengambil subset data hasil sampling tahap 1
data_stage1 <- data[samp1,]
#Sampel pada tahap 1
data_stage1
## # A tibble: 30 x 2
## Kako IPM
## <chr> <dbl>
## 1 Kabupaten Bondowoso 67.3
## 2 Kabupaten Pamekasan 67.0
## 3 Kabupaten Banyuwangi 71.9
## 4 Kabupaten Bangkalan 65.0
## 5 Kabupaten Pacitan 69.4
## 6 Kabupaten Probolinggo 67.0
## 7 Kabupaten Bojonegoro 70.1
## 8 Kota Malang 82.7
## 9 Kabupaten Malang 71.4
## 10 Kota Probolinggo 74.6
## # ... with 20 more rows
#Menentukan jumlah sampel pada tahap 2
n2 <- 10
#Stage 2: Simple Random Sampling Without Replacement
samp2 <- sample(nrow(data_stage1), n2, replace = FALSE)
#Mengambil subset data hasil sampling tahap 2
data_final <- data_stage1[samp2,]
#Sampel terpilih two stage sampling
data_final
## # A tibble: 10 x 2
## Kako IPM
## <chr> <dbl>
## 1 Kabupaten Malang 71.4
## 2 Kabupaten Jombang 74.0
## 3 Kabupaten Gresik 77.2
## 4 Kabupaten Lamongan 74.0
## 5 Kabupaten Pamekasan 67.0
## 6 Kabupaten Ponorogo 71.9
## 7 Kabupaten Kediri 73.5
## 8 Kabupaten Pacitan 69.4
## 9 Kabupaten Ngawi 71.8
## 10 Kota Batu 77.2
#Perbandingan rata-rata populasi dan sampel terpilih dari two stage sampling SRS-SRS wor
cat("Rata-rata IPM populasi adalah sebesar", mean(data$IPM),
"sedangkan rata-rata IPM sampel two stage sampling sebesar", mean(data_final$IPM))
## Rata-rata IPM populasi adalah sebesar 72.96921 sedangkan rata-rata IPM sampel two stage sampling sebesar 72.727
Berdasarkan hasil di atas, terlihat bahwa rata-rata sampel 10 wilayah sampel cukup mendekati rata-rata untuk keseluruhan wilayah yang dalam konteks ini dijadikan sebagai populasi. Artinya, untuk melihat rata-rata IPM keseluruhan wilayah di Jawa Timur tahun 2022, kita cukup mengambil sampel sebanyak 10 wilayah saja sehingga lebih efisien dan efektif.
Demikian sedikit sharing kita kali ini. Jangan lupa untuk terus menyimak setiap artikel terbaru dan menarik lainnya di blog ini. Selamat memahami dan mempraktikkan!