deteksi outlier

11
NAMA : MELINDA DWI ANGGRAENI NIM : 125090507111021 MATA KULIAH : ANALISIS DATA EKSPLORATORI KELAS : B ANALISIS OUTLIER (PENCILAN) Umumnya pengamatan yang dicurigai sebagai outlier, influential observations, dan high leverage dikategorikan ke dalam pelanggaran asumsi. Maka lebih tepat jika digunakan analisis residual. Berikut ini adalah beberapa definisi outlier : 1. Ferguson ( 1961), Outlier adalah suatu data yang menyimpang dari sekumpulan data yang lain. 2. Barnett (1981), Outlier adalah pengamatan yang tidak mengikuti sebagian besar pola dan terletak jauh dari pusat data. 3. R.K. Sembiring (1950), Outlier adalah pengamatan yang jauh dari pusat data yang mungkin berpengaruh besar terhadap koefesien regresi. 4. Weissberg (1985), Jika terdapat masalah yang berkaitan dengan outlier , maka diperlukan alat diagnosis yang dapat mengidentifikasi masalah outlier , salah satunya dengan menyisihkan outlier dari kelompok data kemudian menganalisis data tanpa outlier.

Upload: melindadwianggraeni

Post on 10-Nov-2015

26 views

Category:

Documents


2 download

DESCRIPTION

-

TRANSCRIPT

NAMA

: MELINDA DWI ANGGRAENINIM

: 125090507111021

MATA KULIAH: ANALISIS DATA EKSPLORATORI

KELAS

: BANALISIS OUTLIER (PENCILAN)Umumnya pengamatan yang dicurigai sebagai outlier, influential observations, dan high leverage dikategorikan ke dalam pelanggaran asumsi. Maka lebih tepat jika digunakan analisis residual. Berikut ini adalah beberapa definisi outlier : 1. Ferguson ( 1961), Outlier adalah suatu data yang menyimpang dari sekumpulan data yang lain. 2. Barnett (1981), Outlier adalah pengamatan yang tidak mengikuti sebagian besar pola dan terletak jauh dari pusat data. 3. R.K. Sembiring (1950), Outlier adalah pengamatan yang jauh dari pusat data yang mungkin berpengaruh besar terhadap koefesien regresi. 4. Weissberg (1985), Jika terdapat masalah yang berkaitan dengan outlier , maka diperlukan alat diagnosis yang dapat mengidentifikasi masalah outlier , salah satunya dengan menyisihkan outlier dari kelompok data kemudian menganalisis data tanpa outlier. Metoda yang digunakan dalam hubungannya dengan outlier (pencilan), influential observations (pengamatan berpengaruh), dan high leverage (pengaruh tinggi) adalah analisis residual. Residual banyak memegang peranan penting dalam pengujian untuk model regresi karena residual itu sendiri merupakan sisa pada suatu pengamatan . Residual atau sisaan di definisikan sebagai berikut : , i = 1, 2, , n. Kendati namanya mungkin meyesatkan, residual bukan berarti sampah yang tidak berguna. Residual kaya akan berbagai informasi dan karena itu merupakan bagian yang penting dalam setiap analisa data. Informasi dari data semula tidak terserap oleh model akan menjadi residual. Jika semua pola yang ada pada data telah masuk kedalam model maka residual akan berbentuk acak. Tetapi jika model yang digunakan tidak mampu mengambil semua pola yang ada pada data maka residual akan mempunyai kecenderugan tertentu. Dalam hal itu, model belumlah baik betul, dalam arti masih dapat disempurnakan. Ketidakcocokan model dengan data dilihat dengan mengamati residual. Resudial secara kasar, member keterangan tentang dta yang tidak mengikuti pola umum model yang digunakan, ditandai dengan residualnya yang relative besar. Residual yang relative besar dapat merupakan petunjuk bahwa modelnya belum cocok ataupun pengamatannya barangkali merupakan pencilan. Membuang data pencilan mungkin tindakan yang keliru, data tersebut mungkin berasal dari bibit unggul.Suatu data mungkin letaknya terpencil, tapi bila pengaruhnya terhadap koefisien kecil maka kita tidak perlu member perhatian besar padanya. Makin besar ukuran sampel n makin kecil pengaruh suatu titik data. Pengaruh suatu data mungkin merupakan pencilan bila menggunakansuatu model, tapi tidak bila model lain yang digunakan. Dalam statistik ruang, data pencilan harus dilihat terhadap posisi dan sebaran data yang lainnya sehingga akan dievaluasi apakah data pencilan tersebut perlu dihilangkan atau tidak.Banyak cara untuk mendeteksi adanya outlier dalam data. Seperti contoh berikut ini :Data berikut diambil dari Skipsi mahasiswa Departemen Peternakan Fakultas Pertanian Universitas Sumatera Utara atas nama Surya Amri Siregar (040306020) tahun 2009 dengan judul ANALISIS PENDAPATAN PETERNAK SAPI POTONG DI KECAMATAN STABAT KABUPATEN LANGKAT. Data Populasi Ternak Sapi Potong Menurut Kecamatan di Kabupaten Langkat Tahun 2005 2007 adalah sebagai berikut :NoKecamatanJumlah Populasi

200520062007

1Bahorok156940694383

2Salapian 414241424970

3Sei Bengei375237524502

4Kuala564666496076

5Selesai400350036004

6Binjai237323732848

7Stabat96621166216995

8Wampu103160317237

9Batang Serangan98350545962

10Sawit Seberang111418592231

11Padang Tualang917237544005

12Hinai183429442533

13Secanggang5494898310780

14Tanjung Pura121112111453

15Gebang225022501787

16Babalan147514751200

17Sei.lapan47720271832

18Brandan Barat477477572

19Besitang176017602112

20Pangkalan Susu177517751356

Jumlah Total602007725088838

Dengan menggunakan Software Minitab17 dan menggunakan Outlier Grubbs Test diperoleh hasil sebagai berikut :

Dari hasil diatas, dapat disimpulkan bahwa data populasi ternak sapi potong menurut kecamatan di Kabupaten Langkat pada tahun 2005 tidak terdapat pencilan. Hal itu dapat dilihat dari tidak adanya titik yang berwarna merah pada plot dan nilai P-value lebih dari 0,05.

Dari hasil diatas, dapat disimpulkan bahwa data populasi ternak sapi potong menurut kecamatan di Kabupaten Langkat pada tahun 2006 terdapat pencilan. Hal itu dapat dilihat dari adanya titik yang berwarna merah pada plot, dan pencilan itu terdapat pada kecamatan ke-7 yaitu Kecamatan Stabat dengan jumlah populasi sapi potongny sebesar 11.662 dan nilai P-value kurang dari 0,05.

Dari hasil diatas, dapat disimpulkan bahwa data populasi ternak sapi potong menurut kecamatan di Kabupaten Langkat pada tahun 2007 terdapat pencilan. Hal itu dapat dilihat dari adanya titik yang berwarna merah pada plot, dan pencilan itu terdapat pada kecamatan ke-7 yaitu Kecamatan Stabat dengan jumlah populasi sapi potongny sebesar 16.995 dan nilai P-value kurang dari 0,05.

Selanjutnya untuk mendeteksi adanya pencilan dapat mengunakan box plot , diperoleh hasil sebagai berikut :

Dari hasil diatas, dapat dilihat bahwa pada tahun 2005 terdapat 2 pencilan yaitu data ke-7 dan ke-11. Sedangkan pada tahun 2006 dan 2007 hanya terdapat 1 pencilan yaitu terdapat pada data ke-7.Selanjutnya pencilan juga dapat di analisis menggunakan Histogram, diperoleh hasil sebagai berikut :

Dari hasil tersebut, dapat dilihat bahwa pada tahun 2005 ada 2 pencilan yaitu pada rentang 8500-9500 dan rentang 9500-10500.

Dilihat dari hasil diatas, terdapat pencilan pada data tahun 2006 dan pencilan tersebut pada rentang 11000-13000.

Untuk tahun 2007, data yang diperoleh juga terdapat pencilan dengan rentang antara 15000-17000.

Dari semua anilisis pencilan ini, peneliti diharapkan dapat mengolah data tersebut dengan tepat. Pencilan sebaiknya tidak langsung dihilangkan, bisa jadi pencilan tersebut adalah bibit unggul dari data tersebut. Peneliti dapat lebih menganalisis pencilan tersebut atau menambahkan lebih banyak pengamatan supaya pencilan tersebut dapat diatasi.DAFTAR PUSTAKA

http://stein.ac.id/e-journal/pn_6/PN_6.pdf, diakses pada 13 Maret 2015.http://repository.usu.ac.id/bitstream/handle/123456789/7633/09E01096.pdf;jsessionid=9E82DD5477F3C42A342DA0F1B8AF443B?sequence=1, diakses pada 13 Maret 2015

P-Value

P-Value

P-Value