if5175_tugas 2_kelompok frequent pattern

12
Analisis Data dan Bisnis FREQUENT PATTERN: CLIQUE & PROCLUS Oleh: Ihsan Satriawan (23513008) Apriani Puti Purfini (23513007) Ayu Nurintan (23513003) Andi Adibah Badzlina Tanra (23513002) I Made Riyan Adi Nugroho (23513077) Dikumpulkan: Selasa, 11 Maret 2014 Program Studi Informatika Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung

Upload: maderiyan

Post on 08-Feb-2016

25 views

Category:

Documents


0 download

DESCRIPTION

Clique and Proclus

TRANSCRIPT

Page 1: IF5175_Tugas 2_kelompok Frequent Pattern

Analisis Data dan Bisnis

FREQUENT PATTERN: CLIQUE & PROCLUS

Oleh:

Ihsan Satriawan (23513008)

Apriani Puti Purfini (23513007)

Ayu Nurintan (23513003)

Andi Adibah Badzlina Tanra (23513002)

I Made Riyan Adi Nugroho (23513077)

Dikumpulkan: Selasa, 11 Maret 2014

Program Studi Informatika

Sekolah Teknik Elektro dan Informatika

Institut Teknologi Bandung

Bandung

Page 2: IF5175_Tugas 2_kelompok Frequent Pattern

FREQUENT PATTERN: CLIQUE & PROCLUS

PendahuluanPada tugas kali ini akan dilakukan analisis mengenai dua jenis metode subspace clustering yaitu

Clique method dengan Proclus method. Data yang digunakan untuk melakukan analisis kedua metode

ini menggunakan data “Turkiye Student Evaluation”, yaitu data tentang hasil evaluasi siswa di Negara

Turki. Data ini diambil dari sumber UCI (https://archive.ics.uci.edu/). Analisis yang dilakukan dengan

melakukan perbandingan kedua metode tersebut untuk parameter akurasi analisis, jumlah cluster yang

dihasilkan, dan waktu yang dibutuhkan untuk melakukan proses perhitungan.

Penjelasan Teori1. Data yang digunakan

Pada tugas ini data yang digunakan adalah Turkiye Student Evaluation Data Set yaitu data

tentang hasil evaluasi siswa di Negara Turki. Data tersebut diambil dari sumber

(fromhttps://archive.ics.uci.edu/ml/datasets/Turkiye+Student+Evaluation). Ada beberapa

atribut yang terdapat pada data tersebut, yaitu:

- InStr : identifier Instruktur ; nilai-nilai yang diambil dari { 1,2,3 }

- Class : Kode Course ( descriptor ) ; nilai yang diambil dari { 1-13 }

- Repeat : Jumlah mahasiswa yang mengambil course ini; nilai yang diambil dari

{0,1,2,3,...}

- Attendace : Kode tingkat kehadiran ; nilai dari { 0 , 1 , 2 , 3 , 4 }

- Difficulty : Tingkat kesulitan dari program seperti yang dirasakan oleh siswa ; nilai-nilai

yang diambil dari { 1,2,3,4,5 }

- Q1 : Isi course semester , metode pengajaran dan sistem evaluasi diberikan di awal .

- Q2 : Maksud dan tujuan course yang jelas dinyatakan pada awal periode .

- Q3 : Course jumlah kredit yang ditugaskan.

- Q4 : Course diajarkan sesuai dengan silabus diumumkan pada hari pertama kelas .

- Q5 : The diskusi kelas , pekerjaan rumah , aplikasi dan studi yang memuaskan .

- Q6 : The buku dan course lainnya sumber daya yang cukup dan up to date.

- Q7 : Course diperbolehkan kerja lapangan , aplikasi , laboratorium , diskusi dan studi

lainnya.

- Q8 : The kuis , tugas, proyek dan ujian berkontribusi untuk membantu pembelajaran .

1Analisis Data dan BisnisTugas 2: Frequent Pattern: Clique & Proclus

Page 3: IF5175_Tugas 2_kelompok Frequent Pattern

- Q9 : Saya sangat menikmati kelas dan bersemangat untuk berpartisipasi aktif selama

kuliah .

- Q10 : harapan awal saya tentang course bertemu di akhir periode atau tahun .

- Q11 : Course ini relevan dan bermanfaat bagi pengembangan profesional saya.

- Q12 : Course ini membantu saya melihat kehidupan dan dunia dengan perspektif baru .

- Q13 : Pengetahuan Instruktur adalah relevan dan up to date.

- Q14 : Instruktur datang siap untuk kelas.

- Q15 : Instruktur mengajar sesuai dengan rencana pelajaran diumumkan .

- Q16 : Instruktur berkomitmen untuk course dan dimengerti .

- Q17 : Instruktur tiba pada waktunya untuk kelas .

- Q18 : Instruktur memiliki halus dan mudah untuk mengikuti pengiriman / pidato .

- Q19 : Instruktur membuat penggunaan efektif jam kelas .

- Q20 : Instruktur menjelaskan course dan bersemangat untuk membantu kepada siswa .

- Q21 : Instruktur menunjukkan pendekatan yang positif kepada siswa .

- Q22 : Instruktur itu terbuka dan menghormati pandangan siswa tentang course .

- Q23 : Instruktur mendorong partisipasi dalam course.

- Q24 : Instruktur memberi relevan pekerjaan rumah / proyek , dan membantu / siswa

dipandu .

- Q25 : Instruktur menanggapi pertanyaan tentang course dalam dan di luar saja .

- Q26 : Sistem Evaluasi Instruktur ( ujian tengah semester dan akhir pertanyaan , proyek ,

tugas , dll ) secara efektif mengukur tujuan program .

- Q27 : Instruktur memberikan solusi untuk ujian dan membahasnya dengan siswa .

- Q28 : Instruktur memperlakukan semua siswa dengan cara yang benar dan obyektif .

Q1 - Q28 semua Likert - type, yang berarti bahwa nilai-nilai yang diambil dari { 1,2,3,4,5

}

2. Metode Cluster

- Clique (Clustering in Quest)

Metode ini merupakan algoritma yang menggabungkan clustering berdasarkan grid dan

density. CLIQUE adalah suatu metode yang tepat digunakan untuk data berdimensi

tinggi dalam database yang besar [1].

- Proclus

Metode ini fokus untuk menemukan cluster di subspace dengan projeksi kecil untuk data

dengan dimensionaliti yang tinggi. Metode ini juga metode yang efektif untuk

menemukan regions dari densitas yang tinggi di data dengan dimensional tinggi

2Analisis Data dan BisnisTugas 2: Frequent Pattern: Clique & Proclus

Page 4: IF5175_Tugas 2_kelompok Frequent Pattern

3. Tool yang digunakan

Tools yang dipakai untuk analisa data ini adalah Weka Explorer dan menggunakan Open

subspace yang ter-embed dalam Weka.

Workflow1. Tahapan Clique Method

CLIQUE membangun clustering multidimensional dalam dua tahap[1] yaitu :

- Data berdimensi n dipartisi kedalam unit –unit rectngular yang tidak overlapping.

Identifikasi tentang kepadatan (density) unit dilakukan disini dan ini dilakukan untuk

setiap dimensi. Unit density ini kemudian diuji untuk menentukan cluster.

- CLIQUE membuat deskripsi minimal untuk setiap cluster. Untuk setiap cluster

ditentukan daerah maksimum yang meliputi cluster–cluster dari unit density yang

tersambung. Ini kemudian yang menentukan minimal cover dari setiap cluster.

2. Tahapan Proclus Method

Tiga phase ProClus :

1. Initialization Phase

Greedy Algorithm :

a. semua data set :

b. Pilih sampel set data point secara acak. Set A yang dipilih :

c. Set E yang dipilih : Set {A,E}

3Analisis Data dan BisnisTugas 2: Frequent Pattern: Clique & Proclus

Page 5: IF5175_Tugas 2_kelompok Frequent Pattern

d. Jarak Minimum antara point dalam set

Ket:

Pilih sampel set data point secara acak.

Pilih satu set data point yang mungkin merupakan medoids dari kelompok. Medoid

untuk cluster adalah data point yang terdekat dengan pusat cluster

2. Iterative Phase

a. Dari Tahap Inisialisasi, mendapat satu set point data yang harus berisi medoids.

(Dinotasikan dengan M)

b. Fase ini, kita akan menemukan medoids terbaik dari M.

c. Acak untuk menemukan set poin M terbaru, dan mengganti "bad" medoids dari point

lain di M jika perlu.

d. Untuk medoids, berikut akan dilakukan:

Cari Dimensi terkait dengan medoids

Menetapkan data Poin ke medoids

Evaluasi Cluster terbentuk

Cari medoid buruk, dan mencoba hasil penggantian medoid buruk

e. Prosedur di atas diulang sampai mendapat hasil yang memuaskan

f. Untuk setiap medoid mi, biarkan D menjadi jarak terdekat ke medoid lain

g. Semua titik data dalam jarak yang akan ditugaskan untuk medoid mi

h. Untuk poin ditugaskan untuk medoid mi, menghitung jarak rata-rata Xi, j ke medoid di

setiap j dimensi

4Analisis Data dan BisnisTugas 2: Frequent Pattern: Clique & Proclus

Page 6: IF5175_Tugas 2_kelompok Frequent Pattern

i. Hitung Yi mean dan deviasi standar i Xi, j sepanjang j

j. Hitung Zi, j = (Xi, j - Yi) / i

k. Pilih k x L paling negatif dari Zi, j dengan setidaknya 2 dipilih untuk setiap medoids

3. Refinement Phase

a. Redo proses dalam Tahap Iteratif sekali dengan menggunakan titik data

didistribusikan oleh hasil klaster, tapi tidak jarak dari medoids

b. Meningkatkan kualitas hasil

c. Pada tahap berulang, kita tidak menangani outliers, dan sekarang kami akan

menanganinya.

d. Untuk setiap mil medoid dengan dimensi Di, menemukan terkecil Manhattan

segmental jarak ∆ i ke salah satu medoids lain sehubungan dengan set dimensi Di.

Analisis1. Analisis Clique Method

Parameter yang digunakan untuk analisis clique pada Subspace cluster Bracketing adalah

sebagai berikut:

From Offset Steps To

TAU 0,5 0 1 0,5

XI 5 0 1 5,0

Atribut yang tidak dilibatkan dalam analisis ini adalah difficulty. Waktu yang dibutuhkan

untuk mendapatkan hasil adalah 785 ms dan mendapatkan hasil visualisasi adalah 113.695

ms.

5Analisis Data dan BisnisTugas 2: Frequent Pattern: Clique & Proclus

Page 7: IF5175_Tugas 2_kelompok Frequent Pattern

2. Analisis Proclus Method

Atribut yang tidak dilibatkan dalam analisis ini adalah difficulty. Waktu yang dibutuhkan

untuk mendapatkan hasil adalah 1.320 ms dan mendapatkan hasil visualisasi adalah 67.658

ms.

3. Matrik perbandingan

Akurasi analisis Jumlah cluster yang

terdeteksi

Waktu yang

dibutuhkan

Clique 0,37 3 785

6Analisis Data dan BisnisTugas 2: Frequent Pattern: Clique & Proclus

Page 8: IF5175_Tugas 2_kelompok Frequent Pattern

Proclus 0,36 4 1.320

Kesimpulan

Referensi1. [1]. http://elib.unikom.ac.id/files/disk1/468

2. [2]. https://archive.ics.uci.edu/ml/datasets/Turkiye+Student+Evaluation

3. [3]. http://arxiv.org/ftp/arxiv/papers/1009/1009.0384.pdf

4.

7Analisis Data dan BisnisTugas 2: Frequent Pattern: Clique & Proclus