Download - IF5175_Tugas 2_kelompok Frequent Pattern
Analisis Data dan Bisnis
FREQUENT PATTERN: CLIQUE & PROCLUS
Oleh:
Ihsan Satriawan (23513008)
Apriani Puti Purfini (23513007)
Ayu Nurintan (23513003)
Andi Adibah Badzlina Tanra (23513002)
I Made Riyan Adi Nugroho (23513077)
Dikumpulkan: Selasa, 11 Maret 2014
Program Studi Informatika
Sekolah Teknik Elektro dan Informatika
Institut Teknologi Bandung
Bandung
FREQUENT PATTERN: CLIQUE & PROCLUS
PendahuluanPada tugas kali ini akan dilakukan analisis mengenai dua jenis metode subspace clustering yaitu
Clique method dengan Proclus method. Data yang digunakan untuk melakukan analisis kedua metode
ini menggunakan data “Turkiye Student Evaluation”, yaitu data tentang hasil evaluasi siswa di Negara
Turki. Data ini diambil dari sumber UCI (https://archive.ics.uci.edu/). Analisis yang dilakukan dengan
melakukan perbandingan kedua metode tersebut untuk parameter akurasi analisis, jumlah cluster yang
dihasilkan, dan waktu yang dibutuhkan untuk melakukan proses perhitungan.
Penjelasan Teori1. Data yang digunakan
Pada tugas ini data yang digunakan adalah Turkiye Student Evaluation Data Set yaitu data
tentang hasil evaluasi siswa di Negara Turki. Data tersebut diambil dari sumber
(fromhttps://archive.ics.uci.edu/ml/datasets/Turkiye+Student+Evaluation). Ada beberapa
atribut yang terdapat pada data tersebut, yaitu:
- InStr : identifier Instruktur ; nilai-nilai yang diambil dari { 1,2,3 }
- Class : Kode Course ( descriptor ) ; nilai yang diambil dari { 1-13 }
- Repeat : Jumlah mahasiswa yang mengambil course ini; nilai yang diambil dari
{0,1,2,3,...}
- Attendace : Kode tingkat kehadiran ; nilai dari { 0 , 1 , 2 , 3 , 4 }
- Difficulty : Tingkat kesulitan dari program seperti yang dirasakan oleh siswa ; nilai-nilai
yang diambil dari { 1,2,3,4,5 }
- Q1 : Isi course semester , metode pengajaran dan sistem evaluasi diberikan di awal .
- Q2 : Maksud dan tujuan course yang jelas dinyatakan pada awal periode .
- Q3 : Course jumlah kredit yang ditugaskan.
- Q4 : Course diajarkan sesuai dengan silabus diumumkan pada hari pertama kelas .
- Q5 : The diskusi kelas , pekerjaan rumah , aplikasi dan studi yang memuaskan .
- Q6 : The buku dan course lainnya sumber daya yang cukup dan up to date.
- Q7 : Course diperbolehkan kerja lapangan , aplikasi , laboratorium , diskusi dan studi
lainnya.
- Q8 : The kuis , tugas, proyek dan ujian berkontribusi untuk membantu pembelajaran .
1Analisis Data dan BisnisTugas 2: Frequent Pattern: Clique & Proclus
- Q9 : Saya sangat menikmati kelas dan bersemangat untuk berpartisipasi aktif selama
kuliah .
- Q10 : harapan awal saya tentang course bertemu di akhir periode atau tahun .
- Q11 : Course ini relevan dan bermanfaat bagi pengembangan profesional saya.
- Q12 : Course ini membantu saya melihat kehidupan dan dunia dengan perspektif baru .
- Q13 : Pengetahuan Instruktur adalah relevan dan up to date.
- Q14 : Instruktur datang siap untuk kelas.
- Q15 : Instruktur mengajar sesuai dengan rencana pelajaran diumumkan .
- Q16 : Instruktur berkomitmen untuk course dan dimengerti .
- Q17 : Instruktur tiba pada waktunya untuk kelas .
- Q18 : Instruktur memiliki halus dan mudah untuk mengikuti pengiriman / pidato .
- Q19 : Instruktur membuat penggunaan efektif jam kelas .
- Q20 : Instruktur menjelaskan course dan bersemangat untuk membantu kepada siswa .
- Q21 : Instruktur menunjukkan pendekatan yang positif kepada siswa .
- Q22 : Instruktur itu terbuka dan menghormati pandangan siswa tentang course .
- Q23 : Instruktur mendorong partisipasi dalam course.
- Q24 : Instruktur memberi relevan pekerjaan rumah / proyek , dan membantu / siswa
dipandu .
- Q25 : Instruktur menanggapi pertanyaan tentang course dalam dan di luar saja .
- Q26 : Sistem Evaluasi Instruktur ( ujian tengah semester dan akhir pertanyaan , proyek ,
tugas , dll ) secara efektif mengukur tujuan program .
- Q27 : Instruktur memberikan solusi untuk ujian dan membahasnya dengan siswa .
- Q28 : Instruktur memperlakukan semua siswa dengan cara yang benar dan obyektif .
Q1 - Q28 semua Likert - type, yang berarti bahwa nilai-nilai yang diambil dari { 1,2,3,4,5
}
2. Metode Cluster
- Clique (Clustering in Quest)
Metode ini merupakan algoritma yang menggabungkan clustering berdasarkan grid dan
density. CLIQUE adalah suatu metode yang tepat digunakan untuk data berdimensi
tinggi dalam database yang besar [1].
- Proclus
Metode ini fokus untuk menemukan cluster di subspace dengan projeksi kecil untuk data
dengan dimensionaliti yang tinggi. Metode ini juga metode yang efektif untuk
menemukan regions dari densitas yang tinggi di data dengan dimensional tinggi
2Analisis Data dan BisnisTugas 2: Frequent Pattern: Clique & Proclus
3. Tool yang digunakan
Tools yang dipakai untuk analisa data ini adalah Weka Explorer dan menggunakan Open
subspace yang ter-embed dalam Weka.
Workflow1. Tahapan Clique Method
CLIQUE membangun clustering multidimensional dalam dua tahap[1] yaitu :
- Data berdimensi n dipartisi kedalam unit –unit rectngular yang tidak overlapping.
Identifikasi tentang kepadatan (density) unit dilakukan disini dan ini dilakukan untuk
setiap dimensi. Unit density ini kemudian diuji untuk menentukan cluster.
- CLIQUE membuat deskripsi minimal untuk setiap cluster. Untuk setiap cluster
ditentukan daerah maksimum yang meliputi cluster–cluster dari unit density yang
tersambung. Ini kemudian yang menentukan minimal cover dari setiap cluster.
2. Tahapan Proclus Method
Tiga phase ProClus :
1. Initialization Phase
Greedy Algorithm :
a. semua data set :
b. Pilih sampel set data point secara acak. Set A yang dipilih :
c. Set E yang dipilih : Set {A,E}
3Analisis Data dan BisnisTugas 2: Frequent Pattern: Clique & Proclus
d. Jarak Minimum antara point dalam set
Ket:
Pilih sampel set data point secara acak.
Pilih satu set data point yang mungkin merupakan medoids dari kelompok. Medoid
untuk cluster adalah data point yang terdekat dengan pusat cluster
2. Iterative Phase
a. Dari Tahap Inisialisasi, mendapat satu set point data yang harus berisi medoids.
(Dinotasikan dengan M)
b. Fase ini, kita akan menemukan medoids terbaik dari M.
c. Acak untuk menemukan set poin M terbaru, dan mengganti "bad" medoids dari point
lain di M jika perlu.
d. Untuk medoids, berikut akan dilakukan:
Cari Dimensi terkait dengan medoids
Menetapkan data Poin ke medoids
Evaluasi Cluster terbentuk
Cari medoid buruk, dan mencoba hasil penggantian medoid buruk
e. Prosedur di atas diulang sampai mendapat hasil yang memuaskan
f. Untuk setiap medoid mi, biarkan D menjadi jarak terdekat ke medoid lain
g. Semua titik data dalam jarak yang akan ditugaskan untuk medoid mi
h. Untuk poin ditugaskan untuk medoid mi, menghitung jarak rata-rata Xi, j ke medoid di
setiap j dimensi
4Analisis Data dan BisnisTugas 2: Frequent Pattern: Clique & Proclus
i. Hitung Yi mean dan deviasi standar i Xi, j sepanjang j
j. Hitung Zi, j = (Xi, j - Yi) / i
k. Pilih k x L paling negatif dari Zi, j dengan setidaknya 2 dipilih untuk setiap medoids
3. Refinement Phase
a. Redo proses dalam Tahap Iteratif sekali dengan menggunakan titik data
didistribusikan oleh hasil klaster, tapi tidak jarak dari medoids
b. Meningkatkan kualitas hasil
c. Pada tahap berulang, kita tidak menangani outliers, dan sekarang kami akan
menanganinya.
d. Untuk setiap mil medoid dengan dimensi Di, menemukan terkecil Manhattan
segmental jarak ∆ i ke salah satu medoids lain sehubungan dengan set dimensi Di.
Analisis1. Analisis Clique Method
Parameter yang digunakan untuk analisis clique pada Subspace cluster Bracketing adalah
sebagai berikut:
From Offset Steps To
TAU 0,5 0 1 0,5
XI 5 0 1 5,0
Atribut yang tidak dilibatkan dalam analisis ini adalah difficulty. Waktu yang dibutuhkan
untuk mendapatkan hasil adalah 785 ms dan mendapatkan hasil visualisasi adalah 113.695
ms.
5Analisis Data dan BisnisTugas 2: Frequent Pattern: Clique & Proclus
2. Analisis Proclus Method
Atribut yang tidak dilibatkan dalam analisis ini adalah difficulty. Waktu yang dibutuhkan
untuk mendapatkan hasil adalah 1.320 ms dan mendapatkan hasil visualisasi adalah 67.658
ms.
3. Matrik perbandingan
Akurasi analisis Jumlah cluster yang
terdeteksi
Waktu yang
dibutuhkan
Clique 0,37 3 785
6Analisis Data dan BisnisTugas 2: Frequent Pattern: Clique & Proclus
Proclus 0,36 4 1.320
Kesimpulan
Referensi1. [1]. http://elib.unikom.ac.id/files/disk1/468
2. [2]. https://archive.ics.uci.edu/ml/datasets/Turkiye+Student+Evaluation
3. [3]. http://arxiv.org/ftp/arxiv/papers/1009/1009.0384.pdf
4.
7Analisis Data dan BisnisTugas 2: Frequent Pattern: Clique & Proclus