Penerapan Simple Random Sampling (SRS) dengan R |
Sejenak kita break dari pemodelan statistik dan Natural Language Processing (NLP), kali ini kita akan beranjak membahas teknik sampling atau pengambilan sampel penelitian. Memahami teknik sampling ini dalam kegiatan penelitian, seperti survei atau eksperimen, sangat penting. Karena, kesalahan dalam mengambil sampel menyebabkan kesimpulan atau inferensi statistik menjadi salah. Kesimpulan yang salah tentu berakibat pada pengambilan kebijakan yang salah.
Sebagai awalan, teknik sampling yang paling sederhana dikenal adalah Simple Random Sampling (SRS). Menurut Sugiyono (2001), teknik ini merupakan teknik mengambil sampel dari elemen populasi yang diterapkan secara random (acak) tanpa memerhatikan strata atau tingkatan (lapisan) yang terkandung dalam populasi. Lebih lanjut Kerlinger (2006) menyebutkan bahwa SRS adalah metode pengambilan sampel dari sebuah populasi dengan cara tertentu sedemikian rupa sehingga setiap elemen populasi memiliki peluang yang sama untuk terpilih atau terambil sebagai sampel.
Penerapan teknik sampling tentu tidak seenaknya, kita perlu mengerti mengapa sebuah teknik sampling bisa digunakan atau tidak. Adapun alasan penggunaan Simple Random Sampling (SRS) sendiri setidaknya ada 2, yaitu: (1) terbatasnya pengetahuan peneliti terhadap karakteristik populasi sehingga derajat keragaman di dalam populasi juga belum diketahui; (2) pengguna teknik ini belum mengetahui teknik lain yang lebih efisien.
Selain alasan mengapa SRS digunakan, kita juga perlu mengetahui beberapa syarat utama pemanfaatan SRS dalam penelitian atau eksperimen. Beberapa syarat tersebut adalah (1) tersedianya kerangka sample (sampling frame) yang lengkap dari populasi; (2) karakteristik populasi bersifat homogen (seragam), bila heterogen, maka akan meningkatkan risiko under coverage karena sampel belum cukup representatif terhadap populasi; (3) elemen populasi tidak terlalu terpencar posisinya, selain akan berakibat karakteristik yang sangat berbeda, elemen populasi yang terpencar akan meningkatkan biaya penelitian (untuk survei).
Lantas, bagaimana penerapan SRS dengan menggunakan R? Sebelum melakukan praktikum teknik sampling SRS, ada baiknya kita siapkan terlebih dahulu datanya. Data yang kita gunakan kali ini adalah data rasio Gini menurut kabupaten kota se-Jawa Timur bersumber dari Badan Pusat Statistik Provinsi Jawa Timur (jatim.bps.go.id) yang bisa diunduh pada tautan berikut.
Setelah datanya diunduh, langkah-langkah pengambilan sampel dengan teknik Simple Random Sampling (SRS) R sebagai berikut:
#Import Data
ginijatim2022 <- read_excel("C:/Users/Joko Ade")
#Melihat sekilas data
head(ginijatim2022)
## # A tibble: 6 x 3
## id kako gini
## <dbl> <chr> <dbl>
## 1 1 Kabupaten Pacitan 0.338
## 2 2 Kabupaten Ponorogo 0.336
## 3 3 Kabupaten Trenggalek 0.331
## 4 4 Kabupaten Tulungagung 0.342
## 5 5 Kabupaten Blitar 0.335
## 6 6 Kabupaten Kediri 0.329
#Simple Random Sampling (SRS) dengan fungsi sample()
#Melakukan pengacakan sebanyak 100 kali (randomisasi)
set.seed(100)
#Mengambil sample sebanyak 10 wilayah
x <- ginijatim2022[sample(nrow(ginijatim2022), 10),]
#Melihat sampel terpilih
x
## # A tibble: 10 x 3
## id kako gini
## <dbl> <chr> <dbl>
## 1 10 Kabupaten Banyuwangi 0.329
## 2 25 Kabupaten Gresik 0.363
## 3 14 Kabupaten Pasuruan 0.325
## 4 23 Kabupaten Tuban 0.345
## 5 22 Kabupaten Bojonegoro 0.28
## 6 6 Kabupaten Kediri 0.329
## 7 4 Kabupaten Tulungagung 0.342
## 8 35 Kota Mojokerto 0.381
## 9 33 Kota Probolinggo 0.322
## 10 2 Kabupaten Ponorogo 0.336
#Mendapatkan rata-rata rasio Gini
mean(x$gini)
## [1] 0.3352
#SRS dengan fungsi dplyr()
#Melakukan pengacakan sebanyak 50 kali
library(dplyr)
set.seed(50)
#Mengambil sample sebanyak 12 wilayah
y <- sample_n(ginijatim2022, 10)
#Melihat sampel terpilih
y
## # A tibble: 10 x 3
## id kako gini
## <dbl> <chr> <dbl>
## 1 11 Kabupaten Bondowoso 0.365
## 2 31 Kota Blitar 0.381
## 3 37 Kota Surabaya 0.388
## 4 3 Kabupaten Trenggalek 0.331
## 5 8 Kabupaten Lumajang 0.349
## 6 16 Kabupaten Mojokerto 0.327
## 7 18 Kabupaten Nganjuk 0.301
## 8 27 Kabupaten Sampang 0.28
## 9 29 Kabupaten Sumenep 0.266
## 10 21 Kabupaten Ngawi 0.3
#Mendapatkan rata-rata rasio Gini
mean(y$gini)
## [1] 0.3288
#Mendapatkan rata-rata populasi
mean(ginijatim2022$gini)
## [1] 0.3338421
Hasilnya bila kita bandingkan, untuk pengacakan sebanyak 100 kali dan kita pilih dengan SRS sebanyak 10 sampel, yang terpilih adalah Banyuwangi, Gresik, Pasuruan, Tuban, Bojonegoro, Kediri, Tulungagung, Kota Mojokerto, Kota Probolinggo, dan Ponorogo. Rata-rata rasio Gini yang diperoleh dari 10 sampel tersebut adalah sebesar 0,3352. Sementara untuk pengacakan 50 kali dan dipilih 10 sampel diperoleh rata-rata rasio Gini sebesar 0,3288. Nilai rata-rata tersebut terlihat mendekati rata-rata rasio Gini seluruh kabupaten dan kota se-Jawa Timur sebesar 0,3338421. Terlihat bahwa hasil pengacakan 100 kali memiliki hasil yang lebih baik dibanding hasil pengacakan sebanyak 50 kali.