Selasa, 24 April 2018

Evaluasi Kecocokan Model: Mengapa R2 (R Square) dan Adjusted R- Square?

Mungkin kita sering menggunakan model regresi linear, model regresi eksponensial, dan masih banyak lagi. Seringkali kita bertanya, seberapa akurat model yang kita gunakan? Bagaimana mengeceknya? Mungkin bagi yang bergelut di dunia analisis statstik tidak asing lagi dengan istilah R Square (R2) atau biasa juga disebut sebagai koefisien determinasi.
R2 merupakan ukuran kekuatan prediksi.
R2 mencerminkan kecocokan antara model dan data.
R2 menentukan seberapa besar peubah X dapat menjelaskan peubah Y
Kisaran nilai R2 adalah 0 sampai 1, semakin besar nilai R2 maka semakin baik model tersebut untuk memprediksi peubah Y.

Contoh kasus (kasus ini hanya karangan saya agar mudah dipahami):
Saya telah memprediksi Hasil Penjualan (Y) Warung Coto Makassar di Wilayah Makasar dengan peubah Penjelas (X) adalah Luas Warung. Saya memperoleh nilai R2 = 35%, berarti sebanyak 35% peubah Luas Warung dapat menjelaskan/memberikan informasi untuk memprediksi hasil penjualan warung Coto Makassar.

Lalu bagaimana jika saya ingin menambah peubah penjelas pada kasus di atas? Apakah model prediksi saya tetap mendekati dengan data sebenarnya? Apakah R2 nya akan meningkat?
Kasus di atas merupakan kasus regresi linear sederhana. Lalu bagaimana jika saya menambah jumlah peubah penjelasnya, bukan satu peubah penjelas lagi tetapi kita akan menggunakan dua atau lebih peubah penjelas untuk memprediksi kasus di atas (hasil penjualan warung coto Makassar).
Misalkan setelah saya menambah peubah penjelas Lama Berdirinya Warung (X2) dan Luas Parkir (X3) untuk memprediksi Hasil Penjualan warung Coto. Sekarang peubah penjelasnya berapa? Ada tiga yah. Lalu saya peroleh hasil analisis dan ternyata nilai R2 = 35%.
Apakah ada perubahan nilai R2 setelah saya tambahkan peubah penjelas? jawabanya tidak. Mengapa? Karena R2 memiliki sifat hanya meningkat atau tetap konstan tetapi tidak pernah berkurang jika peubah penjelas ditambahkan ke dalam model. Teman-teman boleh menambah referensi bacaan terkait masalah ini https://www.analyticsvidhya.com . Jadi kalau teman-teman menemukan kasus R2 menjadi sangat besar atau konstan setelah ditambahkan peubah penjelas maka jangan dipercaya hasil tersebut karena itu merupakan kelemahan dari R2.

Lalu bagaimana?
Oleh karena kelemahan tersebut maka kita menggunakan "Adjusted R-Square".
The Adjusted R-Square adalah bentuk modifikasi dari R-Square yang telah disesuaikan jumlah peubah penjelas di dalam model. Jadi dengan menggunakan Adjusted R-Square, peubah penjelas telah terkoreksi.
Berikut adalah rumus Adjusted R-Square yang diperoleh dari https://www.analyticsvidhya.com 
Dimana:
R2 = Sample R square
p = Number of predictors
N = total sample size
Berikan Komentar Jika Bermanfaat dan jika ada Koreksi ^_^

Minggu, 22 April 2018

Langkah-Langkah Analisis Regresi Logistik Ganda (Multivariat) Pada SPSS 21

Langkah-langkah analisis regresi logistik multivariat:

Data ini merupakan data hasil pengukuran peubah responnya (dependen) merupakan skala dikotomi (2 kategori) misalnya ya/tidak .
Langkah Pertama kita menyeleksi setiap peubah penjelasnya (independent), peubah mana saja yang layak masuk ke model multivariate. Caranya dengan melakukan regresi logistik sederhana seperti langkah berikut ini: 





Copy paste  setiap nilai p-value pada masing-masing peubah yang telah dilakukan analisis regresi logistik sederhana. Dapat dilihat pada table Variables in the Equation (lihat hasil output) sehingga diperoleh lah nilai berikut:

Variabel
P value
Keterangan
selfefficasy
0,885
Tidak masuk model multivariate
sikap
0,912
Tidak masuk model multivariate
dukungaguru
0,001
Masuk model multivariat
dukungortu
0,000
Masuk model multivariat
dukungteman
0,000
Masuk model multivariat
fasilitas
0,001
Masuk model multivariat
Lingkungan
0,931
Tidak masuk model multivariate


Lakukan analisis logistik kembali, namun hanya memasukkan peubah yang masuk dalam model multivariate.
Output 1
Variables in the Equation

B
S.E.
Wald
df
Sig.
Exp(B)
95% C.I.for EXP(B)
Lower
Upper
Step 1a
dukungaguru(1)
.825
.931
.785
1
.376
2.282
.368
14.148
dukungortu(1)
.995
.825
1.453
1
.228
2.704
.536
13.625
dukungteman(1)
.967
.602
2.586
1
.108
2.631
.809
8.554
fasilitas(1)
-1.110
.743
2.234
1
.135
.330
.077
1.413
Constant
-.863
.462
3.491
1
.062
.422


a. Variable(s) entered on step 1: dukungaguru, dukungortu, dukungteman, fasilitas.

Mengeluarkan peubah dengan nilai p value yang paling besar

Kemudian analisis kembali menggunakan regresi logistik multivariat
Hasilnya seperti berikut:
Output 2
Variables in the Equation

B
S.E.
Wald
df
Sig.
Exp(B)
95% C.I.for EXP(B)
Lower
Upper
Step 1a
dukungortu(1)
1.507
.629
5.747
1
.017
4.515
1.316
15.485
dukungteman(1)
.891
.588
2.294
1
.130
2.438
.770
7.723
fasilitas(1)
-1.128
.741
2.319
1
.128
.324
.076
1.382
Constant
-.828
.456
3.296
1
.069
.437


a. Variable(s) entered on step 1: dukungortu, dukungteman, fasilitas.
Seleksi peubah dengan menghilangkan peubah dukungan teman 
Output 3

Variables in the Equation

B
S.E.
Wald
df
Sig.
Exp(B)
95% C.I.for EXP(B)
Lower
Upper
Step 1a
dukungortu(1)
1.897
.576
10.839
1
.001
6.667
2.155
20.625
fasilitas(1)
-1.361
.718
3.591
1
.058
.256
.063
1.048
Constant
-.431
.356
1.462
1
.227
.650


a. Variable(s) entered on step 1: dukungortu, fasilitas.

Setelah dibandingkan Odds rasionya maka hasilnya
Kita lihat perubahan nilai OR setelah variable dukungan teman dikeluarkan
Variable
OR ada dukungan teman
OR tidak ada dukungan teman
Perubahan OD
dukungortu(1)
4.515
6.667
47.66
dukungteman(1)
2.438
-

fasilitas(1)
.324
.256
20.98
Dari hasil table perubahan ODDS Rasio (OR) di atas terlihat perubahan  nilai OR > 10%, dengan demikian dukungan teman tetap dimasukkan ke dalam model.
Lalu analisis kembali dengan memasukkan variable dukungan teman seperti berikut:
Output 4
Variables in the Equation

B
S.E.
Wald
df
Sig.
Exp(B)
95% C.I.for EXP(B)
Lower
Upper
Step 1a
dukungortu(1)
1.507
.629
5.747
1
.017
4.515
1.316
15.485
dukungteman(1)
.891
.588
2.294
1
.130
2.438
.770
7.723
fasilitas(1)
-1.128
.741
2.319
1
.128
.324
.076
1.382
Constant
-.828
.456
3.296
1
.069
.437


a. Variable(s) entered on step 1: dukungortu, dukungteman, fasilitas.

Peubah dengan Odds Ratio terbesar pada model akhir multivariat, menjadi peubah yang paling dominan menjelaskan peubah dependen (penjelas).

#Analisis Regresi Logistik Ganda
#Langkah Analisis Regresi Logistik
#Uji regresi logistik Ganda