analisis diskriminan

Upload: ridho-fadillah

Post on 13-Jan-2016

31 views

Category:

Documents


2 download

DESCRIPTION

Definisi dan contoh kasus analisis diskriminan multivariate

TRANSCRIPT

  • ANALISIS DISKRIMINAN

    Dosen Pengajar :

    Winih Budiarti, S.S.T., M.Stat.

    Oleh :

    Ridho Fadillah (11.6864)

    4 SE 5

    SEKOLAH TINGGI ILMU STATISTIK

    JAKARTA

    2015

  • ANALISIS DISKRIMINAN

    KONSEP ANALISIS DISKRIMINAN

    Discriminant Function Analysis atau yang lebih dikenal dengan istilah

    analisis diskriminan adalah bagian dari analisis statistik peubah ganda

    (multivariate statistical analysis) yang bertujuan untuk mengklasifikasikan

    kasus-kasus pada variabel independen ke dalam grup atau kategori pada variabel

    dependen. Analisis diskriminan adalah salah satu teknik statistik yang dapat

    digunakan pada hubungan dependensi (hubungan antar variabel dimana sudah

    bisa dibedakan mana variabel respon dan mana variabel penjelas).

    Pengklasifikasian kasus-kasus dapat berupa dua atau lebih grup. Analisis

    diskriminan digunakan pada kasus dimana variabel respon berupa data kualitatif

    dan variabel penjelas berupa data kuantitatif.

    Menurut Johnson and Wichern (1982 : 470), tujuan dari analisis diskriminan

    adalah untuk menggambarkan ciri-ciri suatu pengamatan dari bermacam-macam

    populasi yang diketahui, baik secara grafis maupun aljabar dengan membentuk

    fungsi diskriminan. Dengan kata lain, analisis diskriminan digunakan untuk

    mengklasifikasikan individu ke dalam salah satu dari dua kelompok atau lebih.

    Tujuan diskriminan secara umum adalah:

    1. Mengetahui apakah ada perbedaan yang jelas antara kelompok pada

    variabel dependen. Bisa juga dikatakan untuk melihat perbedaan antara

    anggota grup 1 dengan grup 2.

    2. Jika ada perbedaan, untuk mengetahui variabel bebas mana yang membuat

    perbedaan tersebut.

    3. Membuat fungsi atau model diskriminan yang pada dasarnya mirip dengan

    persamaan regresi.

    4. Melakukan klasifikasi terhadap objek dan untuk mengetahui apakah suatu

    objek termasuk pada grup 1 atau grup 2 atau lainnya.

  • ASUMSI DAN SAMPEL

    Asumsi yang harus dipenuhi dalam analisis diskriminan adalah:

    1. Multivariate normality, atau variabel independen seharusnya berdistribusi

    normal. Jika data tidak berdistribusi normal, hal ini akan menyebabkan

    masalah pada ketepatan fungsi (model) diskriminan. Regresi logistic

    (logistic regression) bisa dijadikan alternatif metode jika memang data

    tidak berdistribusi normal.

    2. Matriks kovarians dari semua variabel independen relatif sama.

    3. Tidak ada korelasi antar variabel independen. Jika dua variabel

    independen mempunyai korelasi yang kuat, maka dikatakan terjadi

    multikolinearitas.

    4. Tidak adanya data yang sangat ekstrim (outlier) pada variabel independen.

    Jika ada data outlier yang tetap diproses, hal ini bisa berakibat

    berkurangnya ketepatan klasifikasi dari fungsi diskriminan.

    Menurut Hair et al. (1987 : 76), analisis diskriminan tidak terlalu sensitif

    dengan pelanggaran asumsi ini, kecuali pelanggarannya bersifat ekstrim. Dan

    Johnson and Wichern (1988: 472) mengatakan hal yang sama bahwa asumsi ini

    (kesamaan ragam-peragam) di dalam praktiknya sering dilanggar.

    Tidak ada jumlah sampel yang ideal secara pasti pada analisis diskriminan.

    Pedoman yang bersifat umum menyatakan untuk setiap variabel independen

    terdapat 5-20 sampel. Dengan demikian, jika terdapat 6 variabel independen maka

    seharusnya terdapat minimal 6x5=30 sampel. Secara terminology spss, jika ada

    enam kolom variabel independen, sebaiknya ada 30 baris data.

    Selain itu, pada analisis diskriminan sebaiknya digunakan dua jenis

    sampel, yakni analisis sampel yang digunakan untuk membuat fungsi diskriminan,

    serta holdout sampel (split sampel) yang digunakan untuk menguji hasil

    diskriminan.

  • PROSEDUR ANALISIS

    Tahapan dari analisis diskriminan adalah sebagai berikut:

    1. Memisah variabel-variabel menjadi variabel dependen dan variabel

    independen.

    2. Menentukan metode untuk membuat fungsi diskriminan. Pada prinsipnya

    terdapat dua metode dasar untuk membuat fungsi diskriminan, yakni:

    - Simultaneus estimation, semua variabel independen dimasukkan secara

    bersama-sama kemudian dilakukan proses diskriminan.

    - Stepwise estimation, variabel independen dimasukkan satu per satu

    kedalam model diskriminan.

    Pada proses ini akan ada variabel yang tetap ada dalam model dan ada

    variabel yang dibuang dari model.

    3. Menguji signifikansi dari fungsi diskriminan yang telah terbentuk,

    menggunakan Wilks lamda, Pilai, F test dan lainnya.

    4. Menguji ketepatan klasifikasi dari fungsi diskriminan serta mengetahui

    ketepatan klasifikasi secara individual dengan casewise diagnostics.

    5. Melakukan interpretasi terhadap fungsi diskriminan tersebut.

    6. Melakukan uji validasi terhadap fungsi diskriminan.

    Suatu fungsi diskriminan layak untuk dibentuk bila terdapat perbedaan

    nilai rataan di antara 2 kelompok yang ada. Oleh karena itu, sebelum fungsi

    diskriminan dibentuk perlu dilakukan pengujian terhadap perbedaan vektor nilai

    rataan dari 2 kelompok tersebut. Dalam pengujian vektor nilai rataan antar

    kelompok, asumsi yang harus dipenuhi adalah peubah-peubah yang diamati

    berdistribusi multivariate normality dan semua kelompok populasi mempunyai

    matrik ragam-peragam yang sama.

  • CONTOH KASUS

    Berikut ini adalah data untuk contoh Analisis Diskriminan:

    Peubah tak bebas : kategori program general (1), education (2), dan vocation(3).

    Peubah bebas : skor 200 siswa berdasarkan ,

    1. Reading Score

    2. Writing Score

    3. Math Score

    4. Science Score

    5. Social Score

    Pr

    Reading

    Writing

    Math

    Science

    Social

    Pro

    Reading

    Writing

    Math Scien

    Social

    ce

    og. Score Score Score Score Score g. Score Score Score Score Score

    1 34 33 41 36 36 2 63 57 55 58 41

    1 42 36 42 31 39 2 63 59 57 55 56

    1 44 44 39 34 46 2 55 59 62 58 51

    1 28 46 43 44 51 2 63 62 56 55 61

    1 42 39 42 42 41 2 57 65 51 63 61

    1 44 49 44 35 51 2 57 62 63 55 41

    1 44 44 46 39 51 2 65 54 61 58 56

    1 47 44 42 42 36 2 60 62 67 50 56

    1 42 41 43 50 41 2 63 65 48 63 56

    1 42 31 57 47 51 2 47 62 61 69 66

    1 39 54 39 47 36 2 63 60 65 54 66

    1 44 44 46 47 51 2 60 59 62 61 51

    1 42 49 43 50 56 2 68 59 61 55 71

    1 36 57 42 50 41 2 55 62 64 63 66

    1 44 33 54 58 31 2 63 65 65 53 61

    1 42 57 45 50 43 2 73 61 57 55 66

    1 39 53 54 50 41 2 57 65 72 54 56

    1 57 52 41 47 57 2 68 65 62 55 61

    1 47 54 46 50 56 2 68 65 58 59 56

    1 50 52 46 50 56 2 65 67 63 55 71

    1 44 44 61 50 46 2 65 65 64 58 71

    1 52 44 49 55 41 2 57 62 72 61 61

    1 47 54 49 53 61 2 76 52 64 64 61

    1 55 39 57 53 46 2 63 63 69 61 61

    1 50 59 42 53 61 2 65 59 70 63 51

    1 43 54 55 55 46 2 65 65 66 61 66

    1 55 59 52 42 56 2 73 67 62 58 66

  • 1 57 41 57 55 52 2 66 67 67 61 66

    1 63 49 35 66 41 2 68 60 64 69 66

    1 60 54 50 50 51 2 65 67 63 66 71

    1 52 54 55 53 51 2 65 62 68 66 66

    1 63 49 49 66 46 2 68 54 75 66 66

    1 47 59 56 66 61 2 71 65 69 58 71

    1 57 57 60 58 56 2 68 62 65 69 61

    1 63 57 54 58 51 2 68 59 71 66 56

    1 55 62 58 58 61 2 73 60 71 61 71

    1 57 62 56 58 66 2 76 63 60 67 66

    1 52 65 60 56 51 2 63 65 71 69 71

    1 50 62 61 63 51 2 73 67 71 63 66

    1 52 67 57 63 61 2 71 65 72 66 56

    1 65 65 48 63 66 2 73 62 73 69 66

    1 60 65 58 61 66 3 34 35 41 29 26

    1 68 59 56 63 66 3 39 39 44 26 42

    1 55 59 63 69 46 3 37 37 42 33 32

    1 68 59 58 74 66 3 39 31 40 39 51

    2 39 33 38 47 41 3 31 36 46 39 46

    2 34 46 45 39 36 3 50 31 40 34 31

    2 47 37 43 42 46 3 39 41 33 42 41

    2 44 38 49 39 46 3 34 37 46 39 31

    2 47 41 46 40 41 3 34 44 40 39 41

    2 44 50 41 39 51 3 47 31 44 36 36

    2 47 40 43 45 31 3 36 44 37 42 41

    2 47 46 49 33 41 3 35 35 40 51 33

    2 41 59 42 34 51 3 42 46 38 36 46

    2 47 47 41 42 51 3 34 49 39 42 56

    2 50 42 50 36 61 3 37 44 45 39 46

    2 45 55 44 34 41 3 41 47 40 39 51

    2 39 44 52 44 48 3 44 44 40 40 31

    2 44 49 48 39 51 3 47 39 47 42 26

    2 50 41 45 44 56 3 44 41 40 50 26

    2 45 57 50 31 56 3 42 39 39 56 46

    2 44 52 43 44 51 3 50 33 49 44 36

    2 47 41 54 42 56 3 50 40 39 49 47

    2 50 40 45 55 56 3 42 54 41 42 41

    2 47 52 43 48 61 3 47 46 39 47 61

    2 52 49 49 44 61 3 47 42 52 39 51

    2 50 52 53 39 56 3 55 41 40 44 41

    2 42 54 50 50 52 3 47 62 45 34 46

    2 47 57 48 44 41 3 42 54 47 47 46

    2 52 41 51 53 56 3 43 57 40 50 51

  • 2 50 46 45 58 61 3 48 49 52 44 51

    2 39 54 54 53 41 3 47 46 52 48 46

    2 47 52 51 50 56 3 42 57 51 47 61

    2 50 46 53 53 66 3 46 52 55 44 56

    2 57 50 50 51 58 3 36 49 54 61 36

    2 47 52 57 53 61 3 50 49 56 47 46

    2 44 52 51 63 61 3 55 45 46 58 51

    2 61 59 49 44 66 3 50 52 45 58 36

    2 52 59 48 55 61 3 63 44 47 53 56

    2 57 55 52 50 51 3 50 62 41 55 31

    2 47 62 53 53 61 3 50 52 53 55 56

    2 57 54 59 47 51 3 60 46 51 53 61

    2 55 54 66 42 56 3 57 52 40 61 56

    2 52 54 57 55 51 3 52 55 50 54 61

    2 47 59 54 58 46 3 42 41 57 72 31

    2 55 61 54 49 61 3 47 57 57 58 46

    2 63 52 54 50 51 3 57 60 51 53 37

    2 57 59 54 50 56 3 68 62 56 50 51

    2 60 62 49 50 51 3 68 59 53 63 61

    2 52 59 58 53 66 3 50 67 66 66 56

    2 47 65 60 50 56 3 63 63 75 72 66

  • DISCRIMINANT ANALYSIS

    Pengujian Asumsi

    1. Uji Kenormalan

    V1= Skor Reading V3= Skor math V5= Skor Social Study

    V2= Skor Writing V4= Skor Science

    Uji Kenormalan Untuk Kelompok Program General

    Uji Kenormalan untukKelompok Program Academic

  • Uji Kenormalan untukKelompok Program Vocation

    Dari ketiga uji kenormalan di atas, pola sebaran titik-titik data yang telah

    membentuk garis lurus dan mengikuti garis diagonal pada Normal Probability

    Plot. Maka, asumsi peubah-peubah yang diamati menyebar secara normal ganda

    telah terpenuhi.

  • 2. Uji Kesamaan Matrik Varians-Kovarians

    Box's Test of Equality of Covariance Matrices

    Log Determinants

    type of program Rank

    Log Determinant

    general 2 8.321

    academic 2 8.529

    vocation 2 8.727

    Pooled within-groups 2 8.554

    The ranks and natural logarithms of determinants printed are

    those of the group covariance matrices.

    Test Results

    Box's M 4.274

    F Approx. .700

    df1 6

    Dari hasil pengujian dengan Boxs M Test dengan tingkat signifikansi 5 persen

    dapat disimpulkan bahwa matriks varian-kovarian dari ketiga kelompok tersebut

    sama.

    Output SPSS

    Group Statistics

    Valid N (listwise)

    type of program Mean Std. Deviation Unweighted Weighted

    general reading score 49.76 9.235 45 45.000

    writing score 51.33 9.398 45 45.000

    math score 50.02 7.442 45 45.000

    science score 52.44 9.680 45 45.000

  • social studies score 50.60 9.309 45 45.000

    academic reading score 56.16 9.589 105 105.000

    writing score 56.26 7.943 105 105.000

    math score 56.73 8.730 105 105.000

    science score 53.80 9.128 105 105.000

    social studies score 56.70 9.174 105 105.000

    vocation reading score 46.20 8.908 50 50.000

    writing score 46.76 9.319 50 50.000

    math score 46.42 7.954 50 50.000

    science score 47.22 10.334 50 50.000

    social studies score 45.02 10.657 50 50.000

    Total reading score 52.23 10.253 200 200.000

    writing score 52.78 9.479 200 200.000

    math score 52.64 9.368 200 200.000

    science score 51.85 9.901 200 200.000

    social studies score 52.40 10.736 200 200.000

    Tests of Equality of Group Means

    Wilks' Lambda F df1 df2 Sig.

    reading score .822 21.282 2 197 .000

    writing score .822 21.275 2 197 .000

    math score .771 29.279 2 197

    .000

    science score .924 8.128 2 197 .000

    social studies score .790 26.112 2 197 .000

    Nilai Wilks Lambda berkisar 0 sampai 1. Jika mendekati 0 data tiap grup

    cenderung berbeda. Jika mendekati 1 data tiap grup cenderung sama. Nilai F test

    merupakan hasil uji ANOVA jika signifikan berarti ada perbedaan antar grup.

    Kelima variabel tersebut signifikan pada alpha 5% artinya kelima variabel

    mempengaruhi banyak sedikitnya responden dalam memiih tipe program

    pendidikan.

    Stepwise Statistics

    Variables Entered/Removeda,b,c,d

  • Wilks' Lambda

    Exact F

    Step Entered Statistic df1 df2 df3 Statistic df1 df2 Sig.

    1 math score .771 1 2 197 29.279 2 197.000 .000

    2 social studies .714 2 2 197 17.968

    4

    392.000 .000

    score

    At each step, the variable that minimizes the overall Wilks' Lambda is entered. a. Maximum number of steps is 10.

    b. Minimum partial F to enter is 3.84.

    c. Maximum partial F to remove is 2.71.

    d. F level, tolerance, or VIN insufficient for further computation.

    Tabel di atas menunjukkan variabel yang bisa masuk dalam persamaan

    diskriminan. Karena proses yang dilakukan adalah Stepwise, pemasukkan

    variabel dimulai dari variabel yang punya nilai F terbesar (Math Score). Dengan

    demikian dari 5 variabel hanya 2 variabel yaitu Math Score dan Social Studies

    Score yang signifikan mempengaruhi responden dalam memilih tipe program

    pendidikan.

    Variables in the Analysis

    Step

    Tolerance

    F to

    Remove

    Wilks'

    Lambda

    1 math score 1.000 29.279

    2 math score .825 10.475 .790

    social studies

    score .825 7.786 .771

    Variables Not in the Analysis

    Step Tolerance Min. Tolerance F to

    Enter Wilks' Lambda

    0 reading score 1.000 1.000 21.282 .822

    writing score 1.000 1.000 21.275 .822

    math score 1.000 1.000 29.279 .771

    science score 1.000 1.000 8.128 .924

    social studies

    score 1.000 1.000 26.112 .790

    1 reading score .665 .665 2.538 .751

    writing score .725 .725 3.658 .743

  • science score .633 .633 2.897 .749

    social studies

    score .825 .825 7.786 .714

    2 reading score .563 .563 .374 .711

    writing score .622 .622 .829 .708

    science score .606 .597 3.742 .688

    Wilks' Lambda

    Number of Exact F

    Step Variables Lambda df1 df2 df3 Statistic df1 df2 Sig.

    1 1 .771 1 2 197 29.279 2 197.000 .000

    2 2 .714 2 2 197 17.968 4 392.000 .000

    Berdasarkan hasil dari proses stepwise method dengan iterasi sebanyak dua

    kali didapatkan dua peubah yang signifikan membedakan kelompok program general,

    academic, dan vocation karena nilai signifikansinya yang lebih kecil dari 0,05.

    Dengan tingkat residual error yang semakin kecil yang dinyatakan oleh Wilks

    Lambda mulai dari level 0,771 dan terus berkurang hingga mencapai 0.714 setelah

    kedua peubah tersebut terpilih untuk dimasukkan ke dalam fungsi diskriminan.

    Summary of Canonical Discriminant Functions

    Eigenvalues

    Function Eigenvalue % of Variance Cumulative % Canonical Correlation

    1 .395a 99.1 99.1 .532

    2 .004a .9 100.0 .060

    a. First 2 canonical discriminant functions were used in the analysis.

    Nilai akar ciri (eigen value) menunjukkan ada atau tidaknya multikolinearitas

    antar peubah bebas. Multikolinearitas akan terjadi bila nilai akar ciri (eigen value)

    mendekati 0 (nol). Berdasarkan hasil pengolahan data didapatkan nilai akar ciri

    sebesar 0,395 dan 0.004. Keadaan ini dapat diartikan bahwa fungsi canonic

    diskriminan yang kedua diketahui terjadinya multikolinearitas di antara sesama

    peubah bebasnya.

    Pada tabel Eigen Value terdapat nilai canonical correlation. Canonical

  • correlation digunakan untuk mengukur derajat hubunggan antara besarnya

    variabilitas yang mampu diterangkan oleh variabel independen terhadap variabel

    dependen. Dari tabel di atas, diperoleh nilai canonical correlation sebesar 0,532 bila

    dikuadratkan menjadi 0,283 dan sebesar 0,06 dikuadratkan menjadi 0,0036; artinya

    28,3% varians dari variabel dependen dapat dijelaskan dari model diskriminan yang

    terbentuk pada fungsi pertama dan 0,36% dari model diskriminan yang terbentuk

    pada fungsi kedua. Nilai kanonikal korelasi juga menunjukkan korelasi skor

    diskriminan dengan grupnya, jika >0,5 cukup erat/bagus. Output diatas menghasilkan

    nilai korelasi erat (>0,5).

    Wilks' Lambda

    Test of Function(s) Wilks' Lambda Chi-square df Sig.

    1 through 2 .714 66.161 4 .000

    2 .996 .699 1 .403

    0 1 5 %

    Dari hasil di atas, dengan tingkat signifikansi 5 persen dapat disimpulkan bahwa fungsi diskriminan linier sehingga dapat membedakan antar kelompok.

    Standardized Canonical Discriminant Function Coefficients

    Function

    1 2

    math score .635 -.900

    social studies score .551 .953

    Persamaan diskriminan yang terbentuk adalah: 1 = 0,635 + 0,551 2 = 0,900 + 0,953

    Persamaan di atas bukan merupakan sebuah model yang memperlihatkan

    pengaruh variabel bebas terhadap variabel tidak bebas, melainkan sebuah

    persamaan untuk membentuk nilai diskriminan/nilai pembeda.

    Structure Matrix

    Function

    1 2

    math score

    .866*

    -.500

    social studies score .817* .577

  • reading scorea .661

    * -.012

    writing scorea .614

    * .016

    science scorea .607

    * -.160

    Output diatas digunakan untuk melihat variabel yang berpengaruh dalam fungsi

    diskriminan dari korelasi antara variabel bebas dengan fungsi diskriminan yang

    terbentuk. Dari output nilai korelasi yang diatas 0,5 ditunjukkan math score dan

    social studies score dimana kedua variabel masuk dalam persamaan diskriminan akan

    mempunyai nilai korelasi yang cukup kuat dengan persamaan diskriminan yang

    termbentuk.

    Canonical Discriminant Function Coefficients

    Function

    1 2

    math score .077 -.109

    social studies score .057 .099

    (Constant) -7.054 .521

    Unstandardized coefficients

    Tabel canonical discriminant function coefficients menerangkan model diskriminan

    yang terbentuk yang tidak distandarisasi,

    Functions at Group Centroids

    type of Function

    program 1 2

    general -.305 .106

    academic .560 -.019

    vocation -.902 -.056

    Unstandardized canonical discriminant functions evaluated at group means

    Group Centroid merupakan rata-rata nilai diskriminan dari tiap-tiap

    observasi di dalam masing-masing kelompok. Pada fungsi pertama, Group Centroid

    untuk tipe program general adalah sebesar -0.305, untuk tipe program academic

    adalah sebesar 0.560, dan tipe program vocation adalah -0.902. Ini berarti bahwa

    secara rata - rata skor diskriminankedua kelompok berbeda cukup besar sehingga

  • fungsi diskriminan yang diperoleh dapat membedakan secara baik kelompok yang

    ada. Sedangkan pada fungsi kedua, Group Centroid untuk tipe program general

    adalah sebesar 0,106, untuk tipe program academic adalah sebesar -0.019, dan tipe

    program vocation adalah -0.056.

    Classification Statistics

    Prior Probabilities for Groups

    type of

    Cases Used in Analysis

    program Prior Unweighted Weighted

    general .333 45 45.000

    academic .333 105 105.000

    vocation .333 50 50.000

    Total 1.000 200 200.000

    Dari nilai prior probabilities, dapat disimpulkan bahwa: Peluang seorang calon mahasiswa untuk masuk ke jurusan general sebesar

    33,33% Peluang seorang calon mahasiswa untuk masuk ke jurusan academic

    sebesar 33,33% Peluang seorang calon mahasiswa untuk masuk ke jurusan

    vocation sebesar 33,33%

    Classification Resultsa

    type of Predicted Group Membership

    program general academic vocation Total

    Original Countgeneral 14 17 14 45

    academic 20 70 15 105

    vocation 9 10 31 50

    % general 31.1 37.8 31.1 100.0

    academic 19.0 66.7 14.3 100.0

    vocation 18.0 20.0 62.0 100.0

    a. 57,5% of original grouped cases correctly classified.

    Nilai 57,5% merupakan HIT RATIO yaitu tingkat ketepatan klasifikasi (minimal

    85%). Sebesar 57,5 % calon mahasiswa masuk ke jurusan yang sesuai. Namun,

    nilainya kurang dari 85% sehingga model diskriminan yang diperoleh tidak bagus.