tugas mining 2.docx

21
Metode Prediksi Classification Dalam data mining dikenal sebuah istilah klasifikasi, klasifikasi menurut definisi dari sumber adalah Classification is a data mining (machine learning) technique used to predict group membership for data instances Menurut definisi tsb klasifikasi adalah teknik yang dilakukan untuk memprediksi class atau properti dari setiap instance data. Definisi Data Untuk mengetahui definisi dari data dalam klasifikasi mari kita lihat tabel dibawah ini 2 2 3 1 Tua Merokok Lemah Jantung 1 Tua Tidak Merokok Agak Lemah Jantung Dari tabel diatas diketahui ada 3 elemen yaitu 1. instance : data itu sendiri, setiap instance akan memiliki atribut dan class 2. atribut : atribut adalah keterangan yang dikandung dalam data itu sendiri, setiap data bisa memiliki lebih dari 1 atribut. biasanya atribut menggunakan variabel diskrit 3. class : class adalah status dari setiap instance, class adalah kesimpulan dari setiap data, setiap data biasanya hanya memiliki 1 class, biasanya class menggunakan variable diskrit

Upload: vandung

Post on 14-Jan-2017

247 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Tugas Mining 2.docx

Metode Prediksi

Classification

Dalam data mining dikenal sebuah istilah klasifikasi, klasifikasi menurut definisi dari sumber adalahClassification is a data mining (machine learning) technique used to predict group membership for data instancesMenurut definisi tsb klasifikasi adalah teknik yang dilakukan untuk memprediksi class atau properti dari setiap instance data.

Definisi DataUntuk mengetahui definisi dari data dalam klasifikasi mari kita lihat tabel dibawah ini

2 2 31 Tua Merokok Lemah Jantung1 Tua Tidak Merokok Agak Lemah Jantung

Dari tabel diatas diketahui ada 3 elemen yaitu1. instance : data itu sendiri, setiap instance akan memiliki atribut dan class2. atribut : atribut adalah keterangan yang dikandung dalam data itu sendiri,

setiap data bisa memiliki lebih dari 1 atribut. biasanya atribut menggunakan variabel diskrit

3. class : class adalah status dari setiap instance, class adalah kesimpulan dari setiap data, setiap data biasanya hanya memiliki 1 class, biasanya class menggunakan variable diskrit

nah dalam klasifikasi, permasalahan yang dihadapai adalah menentukan class atau attribut dari suatu data yang sebelumnya belum diketahuiTahapanTahapan dari klasifikasi dalam data mining terdiri dari 

Pembangunan model, dalam tahapan ini dibuat sebuah model untuk menyelesaikan masalah klasifikasi class atau attribut dalam data, model ini dibangun berdasarkan training set-sebuah contoh data dari permasalahan yang dihadapi, training set ini sudah mempunyai informasi yang lengkap baik attribut maupun classnya

Penerapan model, pada tahapan ini model yang sudah dibangun sebelumnya digunakan untuk menentukan attribut / class dari sebuah data baru yang attribut / classnya belum diketahui sebelumnya

Page 2: Tugas Mining 2.docx

Evaluasi, pada tahapan ini hasil dari penerapan model pada tahapan sebelumnya dievaluasi menggunakan parameter terukur untuk menentukan apakah model tersebut dapat diterima

Pembangunan ModelDalam tahapan ini dibuat sebuah model yang dapat melakukan klasifikasi dari

training data, Jika didapatkan training data sebagai berikutNo Usia Diabetes Rajin

BerolahragaLajang Cakep LS ?

1 Muda Tidak Ya Ya Tidak Tidak2 Muda Tidak Tidak Ya Tidak Sedikit3 Muda Ya Ya Ya Tidak Ya4 Muda Ya Tidak Ya Tidak Ya5 Matang Tidak Ya Tidak Ya Tidak6 Matang Tidak Tidak Tidak Tidak Sedikit7 Matang Ya Ya Tidak Ya Ya8 Matang Ya Tidak Ya Tidak Yadapat diusulkan model sebagai dibawah ini. ( cara membangkitkan model dan memilih splitting attribut akan dibahas lebih lanjut pada artikel selanjutnya )model 1 :if ( diabetes = ya ) maka LS = Yaelse if ( diabetes = tidak ) {

if ( Rajin Berolahraga = Ya ) LS = Tidakelse if ( Rajin berolahraga = Tidak ) LS = Sedikit  

} yang jika dituliskan flowchartnya adalah sebagai berikut 

Page 3: Tugas Mining 2.docx

model solusi 1 dari model tersebut, jika digunakan pada training data didapatkan misklasifikasi sebesar 0 / 8 = 0 %

Penerapan ModelSetelah didapatkan model tersebut, model bisa diuji kepada data yang belum terklasifikasi seperti set data dibawah ini,  untuk mengetahui seberapa efektif model terhadap kondisi nyata diberikan jawaban yang seharusnya dijawab oleh modelNo Usia Diabetes Rajin

BerolahragaLajang Cakep LS ? Keadaan

Nyata1 Muda Tidak Ya Ya Tidak - Tidak2 Muda Tidak Tidak Ya Tidak - Sedikit3 Muda Ya Ya Ya Tidak - Ya4 Muda Ya Tidak Ya Tidak - Ya5 Matang Tidak Ya Tidak Ya - Tidak6 Matang Tidak Tidak Tidak Tidak - Sedikit7 Matang Ya Ya Tidak Ya - Ya8 Lanjut Tidak Ya Tidak Tidak - Ya

Setelah model digunakan, model akan memberikan jawaban sebagai berikutNo LS ? Keadaan

Nyata1 Tidak Tidak2 Sedikit Sedikit3 Ya Ya4 Ya Ya

Page 4: Tugas Mining 2.docx

5 Tidak Tidak6 Sedikit Sedikit7 Ya Ya8 Tidak Ya

Evaluasi ModelDari penerapan model diketahui bahwa akurasi model dibandingkan dengan kasus nyata adalah 7/8 = 87,5 %kesalahan klasifikasi pada nomor 8 disebabkan karena pada saat training belum diketahui kondisi tersebut, sehingga model tidak memformulasikan untuk kasus tersebutJika diketahui besaran error data yang sudah disebutkan sebelumnya, ada 2 pilihan yang bisa diambil, yaitu membuat model lain atau menerima model tersebut- misalnya karena batasan error tersebut diterima Untuk sementara sekian dahulu, pada pembahasan selanjutnya akan dibahas mengenai

algoritma membangun model pohon keputusan menggunakan beberapa algortima populer 

metodelogi evaluasi model yang lebih komprehensif

Decision TreeDecision Tree adalah alat pendukung keputusan yang menggunakan grafik

seperti pohon atau model keputusan dan kemungkinan konsekuensi mereka, termasuk hasil peristiwa kebetulan, biaya sumber daya, dan utilitas. Ini adalah salah satu cara untuk menampilkan algoritma. Keputusan pohon umumnya digunakan dalam riset operasi, khususnya dalam analisis keputusan, untuk membantu mengidentifikasi strategi yang paling mungkin untuk mencapai tujuan. Lain penggunaan pohon keputusan adalah sebagai alat deskriptif untuk menghitung probabilitas kondisional. Bila keputusan atau konsekuensi dimodelkan dengan kata kerja komputasi, maka kita sebut pohon keputusan pohon verba komputasi keputusan

Dalam analisis keputusan, sebuah "pohon keputusan" - dan diagram pengaruh erat-terkait - digunakan sebagai alat pendukung keputusan visual dan analitis, dimana nilai yang diharapkan (atau diharapkan utilitas) alternatif bersaing dihitung. Keputusan pohon secara tradisional telah dibuat secara manual, seperti yang ditunjukkan contoh berikut:

Page 5: Tugas Mining 2.docx

Keputusan Pohon terdiri dari 3 jenis node: 1. Keputusan node - umum diwakili oleh bujur sangkar2. Chance node - diwakili oleh lingkaran3. Akhir node - diwakili oleh segitiga

Diambil dari kiri ke kanan, pohon keputusan hanya memiliki node meledak (jalur membelah) tapi tidak tenggelam node (jalur konvergensi). Oleh karena itu, digunakan secara manual, mereka bisa tumbuh sangat besar dan kemudian seringkali sulit untuk menarik sepenuhnya oleh tangan.Analisis dapat mempertimbangkan (misalnya, perusahaan) pembuat keputusan itu preferensi atau fungsi utilitas, misalnya:

Page 6: Tugas Mining 2.docx

Penafsiran dasar dalam situasi ini adalah bahwa perusahaan lebih memilih risiko B dan hadiah di bawah koefisien preferensi risiko yang realistis (lebih dari $ 400K-dalam berbagai pengambilan resiko, perusahaan perlu model strategi ketiga, "Baik A atau B")

Influence diagram

Sebuah pohon keputusan dapat direpresentasikan lebih kompak sebagai diagram pengaruh, memusatkan perhatian pada isu-isu dan hubungan antara peristiwa.

Page 7: Tugas Mining 2.docx

METODE DESKRIPSI

Clustering

Clustering adalah suatu alat untuk analisa data, yang memecahkan permasalahan penggolongan. Obyek nya adalah untuk kasus pendistribusian (orang-orang, objek, peristiwa

dll.) ke dalam kelompok, sedemikian sehingga derajat tingkat keterhubungan antar anggota cluster yang sama adalah kuat dan lemah antar anggota dari cluster yang berbeda.

Dengan Cara ini masing-masing cluster menguraikan, dalam kaitan dengan kumpulan/koleksi data, class dimana milik anggota-anggotanya.

Cluster : Data item dikelompokkan menurut pilihan konsumen atau hubungan logis. Sebagai contoh, data dapat dimaknakan untuk mengidentifikasi segmen pasar atau ketertarikan.

Singkatnya: Algoritma Clustering berusaha untuk menemukan kelompok komponen secara natural, berdasarkan pada beberapa kesamaan. Contoh di bawah ini memperagakan clustering dari gembok yang jenisnya sama. Ada total 10 gembok yang memiliki tiga warna berbeda. Kita tertarik untuk mengelompokkan gembok yang memiliki tiga warna dan bentuk yang berbeda dalam tiga kelompok yang berbeda.

Gembok yang jenisnya sama dikelompokkan ke dalam suatu kelompok seperti terlihat di bawah ini:

Sehingga, kita lihat bahwa clustering bermakna menggolongkan data atau membagi satuan data yang besar ke dalam satuan data yang lebih kecil yang memiliki kesamaan. Algoritma clustering tercakup dalam aplikasi BI2M. Lihat contoh dari penggunaan clustering dalam BI2M.

Dalam lingkungan ‘unsupervised learning’, sistem harus mendapatkan klas2nya sendiri dan ini dilakukan dengan mengcluster data dalam database seperti tergambar pada gambar 1. Langkah pertama adalah dengan mendapatkan subset2 dari objek2 yang terhubung, kemudian mencari deskripsinya cth, D1, D2, D3, dst., yang menggambarkan masing2 subset.

Page 8: Tugas Mining 2.docx

Clustering dan segmentasi sebenarnya mempartisi database, karena itu setiap partisi atau group adalah sama menurut kriteria atau metrik tertentu. Jika pengukuran kesamaan tersedia, maka terdapat sejumlah teknik untuk membentuk cluster. Kebanyakan aplikasi2 data mining menggunakan clusteing menurut similarity (kesamaan), contohnya segmentasi basis klien. Clustering menurut optimasi dari sekumpulan fungsi-fungsi digunakan pada analisis data, misalnya ketika mensetting tarif asuransi klien dapat disegmentasi menurut sejumlah parameter. Contoh aplikasi :– Perangkat ‘stand-alone’ : explore data distribution– Langkah preprocessing untuk algoritma lain– Pengenalan pola, analisis data spasial, pengenalan citra, market research, WWW, …

• clustering dokumen-dokumen• clustering data log web untuk mendapatkan group dengan pola akses yang sama

Penggelompokkan data ke cluster-cluster– Data yang sama satu sama lain berada pada cluster yang sama– Yang tidak sama berada pada cluster lain– ‘Unsupervised learning’: klas2 yang belum ditentukan

Klustering yang baik adalah Intraclass similarity (Kesamaan di dalam klas) yang tinggi dan interclass similarity (kesamaan antar klas) yang rendah, bergantung pada pengukuran kesamaan Kemampuan untuk memdapatkan beberapa atau semua pola yangTersembunyi.

Pada sebuah klustering biasanya selalu membutuhkan Scalability, Kemampuan, mengerjakan atribut2 dari berbagai tipe, Penemuan clusters dengan bentuk yang tidak tentu, Kebutuhan minimal untuk pengetahuan domain untuk menentukan, parameter input, Dapat menerima noise dan outlier, Tidak

Page 9: Tugas Mining 2.docx

mengindahkan susunan record dari input, Dimensi yang tinggi, Menyatu dengan batasan yang dispesifikasikan oleh user, Interpretability and usability.

Type data yang digunakan dalam clustering adalah variable-variabel yang berskala interval, variable-variabel biner, variable nominal, ordinal dan rasio serta variabel-variabel dari berbagai tipe variabel.

Kategori Pendekatan Klustering

a. Algoritma Partisi Mempartisi objek2 ke dalam k cluster Realokasi objek2 secara iteratif untuk memperbaiki clustering

b. Algoritma Hirarkis Agglomerative: setiap objek merupakan cluster, gabungan dari cluster2

membentuk cluster yang besar Divisive: semua objek berada dalam suatu cluster, pembagian cluster tsb

membentuk cluster2 yang kecil

c. Metode Berbasis Densitas Berbasis koneksitas dan fungsi densitas Noise disaring, kemudian temukan cluster2 dalam bentuk sembarang

d. Metode Berbasis Grid Kuantisasi ruang objek ke dalam struktur grid

e. Berbasis Model Gunakan model untuk menemukan keadaan data yang baik

Algoritma Partisi

Partisi n objek ke dalam k cluster sebagai Optimasi kriteria partisi yang dipilih Global optimal: dicoba semua partisi (kn-(k-1)n-…-1) partisi yang mungkin Metode heuristik : k-means dan k-medoids, K-means: cluster direpresentasikan

oleh pusat, K-medoids or PAM (partition around medoids): setiap cluster direpresentasikan oleh salah satu objek pada cluster

K-Means

Pilih k objek sembarang sebagai inisial pusat cluster sampai tidak ada perubahan, kerjakan kemudian tunjukkan setiap objek pada cluster dimana objeknya hamper sama, berdasarkan nilai tengah dari objek2 pada cluster update the cluster means, i.e., calculate the mean value of the objects for each cluster.Contoh klustering dalam K-mean adalah sebagai berikut:

Page 10: Tugas Mining 2.docx

InduksiInduksi merupakan salah satu teknik inferensi informasi pada database. Ada

dua teknik inferensi yakni Induksi merupakan teknik inferensi informasi yang digeneralisasi dari database, contohnya setiap pegawai mempunyai manajer. Deduksi merupakan teknik inferensi informasi dari konsekuensi logis informasi pada database, contohnya operasi join pada dua table, dimana yang pertama mengenai pegawai dan departemen sedangkan yang kedua mengenai departemen dan manajer, menghasilkan relasi antara pegawai dan manajer.

Pohon KeputusanPohon keputusan merupakan representasi pengetahuan yang simpel. Pohon

keputusan ini mengklasifikasikan contoh-contoh pada klas-klas dengan angka finit, node diberi nama atribut, edge di beri nilai atribut sedangkan leave diberi nama klas. Objek-objek diklasifikasikan dengan struktur pohon, dengan menggunakan dahan-dahannya sebagai nilai atribut dari objek.

Gambar berikut mengenai keadaan cuaca. Objek2 berisikan informasi mengenai suasana cuaca, kelembaban dll. Beberapa objek merupakan contoh positif dinotasikan dengan P sedangkan yang lain negatif atau N.

Page 11: Tugas Mining 2.docx

Induksi AturanSistem data mining harus dapat menyimpulkan suatu model dari database

dimana model ini mendefinisikan klas-klas seperti halnya database yang terdiri atas satu atau lebih atribut yang menunjukkan klas dari tupel. Klas dapat didefinisikan oleh kondisi atribut. Aturan produksi dipergunakan untuk merepresentasikan pengetahuan sistem pakar dan keuntungannya mudah diinterpretasikan oleh kepakaran manusia dikarenakan modularitas yakni aturan yang tunggal dapat dipahami dengan sendirinya dan tidak perlu referensi aturan yang lain.

Jaringan Syaraf BuatanMerupakan pendekatan perhitungan yang melibatkan pengembangan struktur

secara matematis dengan kemampuan untuk ‘belajar’. Mampu menurunkan pengertian dari data yang kompleks dan tidak jelas dan dapat digunakan pula untuk mengekstrak pola dan mendeteksi tren2 yang sangat kompleks untuk dibicarakan baik oleh manusia maupun teknik komputer lainnya. Jaringan syaraf buatan yang terlatih dapat dianggap sebagai ‘pakar’ dalam kategori informasi yang akan dianalisis. Pakar ini dapat digunakan untuk memproyeksi situasi baru dari ketertarikan dan jawaban dari pertanyaan ‘what if’. Dikarenakan jaringan syaraf buatan adalah terbaik dalam mengidentifikasikan pola atau tren dalam data, maka cocok pula digunakan untuk kebutuhan memprediksi antara lain: Prediksi penjualan Pengontrolan proses industry Riset Pelanggan Validasi data Manajemen resiko Pemasaran target Dll.

Jaringan ini menggunakan sekumpulan elemen-elemen pemrosesan (node) analog pada syaraf otak manusia. Elemen- elemen pemrosesan ini terhubung dalam jaringan dimana dapat mengidentifikasikan pola-pola dalam data sewaktu dipertunjukkan pada data, artinya jaringanbelajar dari pengalaman seperti halnya manusia. Pada gambar di bawah, layer bawah adalah lapisan input dengan x1 – x5. Layer tengah disebut juga layer tersembunyi dengan sejumlahvariabel node. Layer atas merupakan layer output dengan node z1, z2 yang diperoleh dari input yang dicobakan. Contoh, prediksi penjualan (output) berdasarkan penjualan lama, harga dan cuaca (input).

Page 12: Tugas Mining 2.docx

Setiap node yang ada pada layer tersembunyi, secara keseluruhan terhubung dengan input, berarti setiap yg dipelajari didasarkan pada semua input yg diambil bersamaan. Hal ini terlihat pada gambar di 4 bawah. Pada gambar 5, dijelaskan mengenai jaringan syaraf buatan The Clementine User Guide untuk mengidentifikasikan resiko kanker dari berbagai faktor input.

Gambar 4. Di dalam Node

Page 13: Tugas Mining 2.docx

Gambar 5. Jaringan Syaraf Buatan The Clementine User Guide

OLAP ( On line Analytical Processing )

OLAP atau On line Analytical Processing merupakan salah satu aplikasi database untuk memproses database yang sangat besar dengan data yang kompleks. OLAP didefinisikan oleh E.F. Codd (1993) sebagai sintesis dinamik, analisis dan konsolidasi dari data multidimensional yang sangat besar.Aturan atau kebutuhan dari sistem OLAP : View konseptual multidimensional - Penanganan dynamic sparse matrix Transparansi - Pendukung multi-user Aksesibilitas - Operasi unrestricted cross dimensional Kinerja reporting yang konsisten - Manipulasi data intuitif Arsitektur client/server - Reporting yang fleksibel Dimensionalitas generik - Level agregasi dan dimensi yang tidak terbatas

OLAP juga didefinisikan menurut Nigel Pendse adalah sebagai Fast Analysis ofShared Multidimensional Information, artinya : Fast dimana pemakai memperoleh respon dalam detik sehingga tidak terputus

rantai pemikirannya Analysis dimana sistem menyediakan fungsi2 analisis dan lingkup intuitif dan

fungsi2 ini dapat mensuplai logika bisnis dan analisis statistikal yang relevan dengan aplikasi user.

Page 14: Tugas Mining 2.docx

Shared dimana sistem mendukung user yang banyak secara konkurensi. Multidimensional merupakan kebutuhan utama sehingga system mensuplai view

konseptual multidimensional dari data termasuk pendukung untuk hirarki multiple.

Information merupakan data dan informasi yang diwariskan, dimana dibutuhkan oleh aplikasi user

Kirk Cruikshank dari Arbor Software mengidentifikasikan ada 3 komponen OLAP : Database multidimensional harus dapat mengekspresikan kalkulasi bisnis yang

kompleks dengan mudah. Data harus bereferensi dan didefinisikan matematis. Navigasi intuitatif dalam penyusunan data ‘roam around’ yang mana

membutuhkan hirarki mining. Respons instan, yang artinya kebutuhan untuk memberi user informasi secepat

mungkin.

Contoh database OLAP misalnya data penjualan yang dikumpulkan dari region, tipe produk dan cabang penjualan. Queri OLAP harus mengakses database penjualan yang lebih dari satu tahun dan

multi-gigabyte untuk menemukan penjualan produk di setiap region per-tipe produk.

Queri OLAP dapat dikarakterisasikan sebagai transaksi online yang- Mengakses data dalam jumlah besar, misalnya adalah data penjualan beberapa

tahun. - Menganalisis relationship antara tipe elemen bisnis misalnya adalah penjualan,

wilayah, produk dan cabang.- Melibatkan data yang terkumpul misalnya adalah volume penjualan, dollar

yang dianggarkan dan dollar yang dihabiskan.- Menyajikan data dalam berbagai perspektif, mis: penjualan berdasarkan

wilayah vs penjualan berdasarkan cabang dari produk dalam setiap wilayah.- Membandingkan data yang terkumpul dalam periode waktu secara hirarki, mis:

bulanan, tahunan.- Melibatkan kalkulasi kompleks antara elemen data , misalnya keuntungan yang

diharapkan sebagai fungsi dari pendapatan penjualan untuk setiap tipe dari cabang penjualan dalam suatu wilayah tertentu.

- Dapat merespon permohonan user secara cepat sehingga user dapat mengikuti proses pemikiran yang analitik tanpa masuk pada system.

Visualisasi DataVisualisasi data memungkinkan si analis menperoleh pemahaman yang dalam dan lebih intuitif mengenai data dan dapat bekerja sebaik mungkin pada data mining. Data mining memperbolehkan para analis memfokuskan pola-pola dan tren-tren tertentu dan menjelajahi ke dalam menggunakan visualisasi.

Page 15: Tugas Mining 2.docx

Dengan demikian pada umumnya, data mining task dibagi menjadi dua kategori yang penting, yaitu:

1. Predictive tasks

Tujuan dari task ini adalah untuk memprediksi nilai sebuah atribut yang penting berdasarkan nilai dari atribut yang lainnya. Atribut yang diprediksi biasanya dikenal sebagai target atau dependent variable, sedangkan atribut yang digunakan untuk melakukan prediksi dikenal dengan explanatory atau independent variable.

2. Descriptive task

Tujuan dari task ini adalah untuk menghasilkan pola (correlations, trends, clusters, trajecttories dan anomalies) yang merangkum keterhubungan dalam data.

Dari gambar diatas , data yang ada dapat digunakan sebagai inti dari data mining task. Data mining task tersebut antara lain:

1) Predictive Modelling

Predictive Modelling digunakan untuk membangun sebuah model untuk target variable sebagai fungsi dari explanatory variable. Explanatory variable dalam hal ini merupakan semua atribut yang digunakan untuk melakukan prediksi, sedangkan target variable merupakan atribut yang akan diprediksi nilainya. Predictive modeling task dibagi menjadi dua tipe yaitu : Classification digunakan untuk memprediksi nilai dari target variable yang discrete (diskret) dan regression digunakan untuk memprediksi nilai dari target variable yang continu (berkelanjutan).

Page 16: Tugas Mining 2.docx

2) Association Analysis

Association analysis digunakan untuk menemukan aturan association yang memperlihatkan kondisi-kondisi nilai atribut yang sering muncul secara bersamaan dalam sebuah himpunan data.

3) Cluster Analysis

Tidak seperti klasifikasi yang menganalisa kelas data obyek yang mengandung label. Clustering menganalisa objek data tanpa memeriksa kelas label yang diketahui. Label-label kelas dilibatkan di dalam data training. Karena belum diketahui sebelumnya. Clustering merupakan proses pengelompokkan sekumpulan objek yang sangat mirip.

4) Anomaly Detection

Anomaly Detection merupakan metode pendeteksian suatu data dimana tujuannya adalah menemukan objek yang berbeda dari sebagian besar objek lain. Anomaly dapat di deteksi dengan menggunakan uji statistik yang menerapkan model distribusi atau probabilitas untuk data.