datamining vi - 0908605041
Post on 24-Jul-2015
166 Views
Preview:
TRANSCRIPT
SUMMARY
ASSOCIATION ANALYSIS
BASIC CONCEPS and ALGORITHM
Oleh :
Putu Asry Yundari
0908605041
Program Studi Teknik Informatika
Jurusan Ilmu Komputer
Fakultas Matematika dan Ilmu Pengetahuan Alam
Universitas Udayana
2012
ASSOCIATION RULE MINING
Pada bagisn ini akan dijelaskan tentang metodelogi yang dikenal dengan
Association analysis dimana ini berguna untuk menemukan hubungan yang
tersembunyi dari data set yang besar. Hubungan ini dapat direpresentasikan
sebagai Association Rule sebagai contoh pada Gambar 6.1* pada gambar tersebut
dapat dilihat association rules yang didapat dari kumpulan data tersebut misalnya:
{Diaper}{Beer}
6.1 Problem Definition
Binary Representation Data transaksi dapat direpresentasikan dalam format
biner dimana setiap baris sesuai dengan transaksi dan setiap kolom sesuai dengan
item barang. Item dapat diperlakukan sebagai variable biner yang mana bernilai 1
jika barangnya ada dan sebaliknya.
Itemset and Support Count Dimana itemset adalah kumpulan dari satu atau
lebih item. Misalnya {Beer, Diaper, Milk} ini adalah contoh dari 3-itemset.
Bagian yang penting dari itemset adalah support count yaitu dimana ini
menunjukkan jumlah (frekuensi) dari transaksi yang mengandung item yang
khusus. Misalnya {Beer, Diaper, Milk} jumlahnya adalah 2.
Association Rule Pernyataan implikasi dari form XY, dimana X dan Y adalah
Item. Jumlah dari Association Rule dapat mengukur Support dan Confident.
support , s⟶ ( X , Y )=σ ( X∪Y )N
confident , c⟶ ( X , Y )=σ ( X∪Y )σX
Why use Support and Confident? Support sangat penting karena rule yang
mempunyai support sangat rendah dapat simply occur dengan chance. Support
digunakan untuk mengelimenasi rule uninteresting. Disisi lain confident
mengukur kehandalah dari inference made dengan rule. Hasil dari association
analysis dipresentasikan dengan caution.
Formulation of Association Rule Mining Problem association rule mining
dapar diformulasikan seperti dibawah ini
Definition 6.1 (Association Rule Discovery) Diberikan suatu transaksi T, akhir
dari association rule ini adalah mencari semua rule yang dimiliki support ≥
minsup threshold dan confident ≥ minconf threshold. Dimana minsup dan mincof
sesuai dengan support dan confident threshold.
Pendekatan Brute-force untuk mining association rule adalah semua daftar
association rule yang mungkin selanjutnya menghitung support dan confident
untuk setiap. Untuk menghindari perhitungan kinerja yang tidak berguna, akan
sangat berguna untuk memotong aturan awal tanpa harus menghitung nilai dari
support dan confident. Langkah awal untuk memperbaiki kinerja association rule
mining algorithm adalah dengan memisahkan support dan confident.
Strategi umum yang diadopsi dari banyak algoritma association rule adalah
menguraikan masalah kedalam dua bub-tugas yaitu:
1. Frequent Itemset Generation tujuannya adalah menemukan semua itemset
yang memenuhi minsup threshold.
2. Rule Generation tujuannya adalah untuk mengekstrak semua high-
confident rule frequent itemset yang sering ditemukan pada langkah
sebelumnya.
6.2 Frequent Itemset Generation
Untuk mencari frequent itemset dengan pendekatan brute-force adalah dengan
menentukan jumlah support untuk setiap candidate itemset dalam struktur lattice.
Selajutnya jumlah dari support setiap candidate discanning pada database seperti
pada Gambar 6.2*.
Ada beberapa cara untuk mengurangi kompleksitas computational dari frequent
itemset generation:
1. Mengurangi jumlah dari candidate itemset (M), menggunakan teknik
pruning untuk menguranginya.
2. Mengurangi jumlah dari comparisons (NM), menggunakan struktur data
efficient untuk menyimpan candidate atau transaksi
6.2.1 The Apriori Principle
Theorem Apriori principle if an itemset is frequent, then all of its subsets must
also be frequent.
Apriori principle memiliki hak untuk mengikuti property dari support measures
yaitu:
∀ X , Y :(X⊆Y )⇒ f ( X)≥ f (Y )
Support dari itemset tidak pernah melebihi support dari subsets. Ini dikenal
dengan anti-monotone property dari support. Prinsip apriori dapat dilustrasikan
seperti Gambar 6.3*
6.2.2 Frequent Itemset Generation in the Apriori Algorithm
Apriori adalah association rule mining algorithm pertama menggunakan support
berdasarkan pruning untuk mengontrol sistematis pertumbuhan eksponensial dari
candidate item. Metodenya adalah:
- Anggap k=1
- Generate frequent itemsets dari jarak 1
- Ulangi hingga tidak ada identifikasi baru dari frequent itemsets
Generate jarak (k+1) candidate subsets dari jarak k frequent itemsets
Prune candidate itemsets berisi subsets dari jarak k infrequent
Jumlahkan support dari setiap candidate pada scanning database
Eliminasi candidate yang tidak frequent, hingga hanya meninggalkan
frequent saja.
Dapat dilustrasikan pada gambar 6.5*
6.2.3 Candidate Generation and Pruning
Candidate Generation operasi ini menghasilkan candidate k baru
berdasarkan pada frequent (k-1) itemset yang ditemukan pada iterasi
sebelumnya.
Candidate Pruning operasi ini menghilangkan beberapa candidate k
itemset menggunakan support berdasarkan stategi pruning
Pada prinsispnya bayak cara yang dapat digunakan untuk menghasilkan candidate
item, slah satunya adalah :
- Harus menghindari menghasilkan banyak candidate
- Harus memastikan candidate item telah selesai yaitu tidak ada item set
yang meninggalkan prosedur candidate generation
- Tidak menghasilkan candidate itemset yang sama lebih dari sekali
Beberapa prosedur candidate generation yang mencakup fungsi apriori-gen
Metode Brute-Force menganggap setiap k item sebagai candidate potensial dan
menerapkan langkah pruning untuk menghapus candidate yang tidak diperlukan.
Kompleksitas keseluruhan dari metode ini adalah
O(∑k =1
d
k×(dk ))=O(d .2d−1)
Metode Fk-1×F1 metode alternative untuk candidate generation untuk
memperpanjang setiap frequent (k-1)-itemset dengan frequent item lainnya.
Kompleksitas dari metode ini adalah O∑k
k|F k−1|∨F1∨¿¿
Metode F k−1× Fk−1 prosedur candidate generation dari fungsi apriori-gen yang
menggabungkan bagian dari frequent (k-1) itemset hanya jika item pertama (k-2)
adalah identic.
6.2.4 Support Counting
Adalah proses menentukan frekuensi terjadinya untuk setiap candidate itemset
yang bertahan pada candidate pruning step dari fungsi apriori-gen. Untuk
melakukan ini hal pertama yang dilakukan adalah scanning database dari data
transaksi untuk menentukan support dari setiap candidate itemset. Untuk
mengurangi jumlah perbandingan, tempat penyimpanan candidate dalam struktur
hash. Seperti dapat dijelaskan dari Gambar 6.9*
Dari gambar tesebut diberikan t={1,2,3,4,5,6 } harus dibangun dengan 3-itemset
dan hsrus terkandung t item 1, 2, atau 3. Hal ini tidak mungkin membangun
dengan item 5 atau 6 karena hanya ada 2 item yang lebih besar dan sama dengan
item tersebut. Pertama bagi levelnya menjadi level 1,2 dan 3. Pada level 1 untuk
mengetahui jumlah cara yang dapat digunakan untuk menentukan item pertama
dari 3-itemset yang diketahui. Level 2 mewakili sejumlah cara untuk memilih
item yang kedua. Level 3 mewakili set yang lengkap dari 3-itemset yang
terkandung dalam t. Misal dari level 1 telah didapat 1 [2 3 4 5 6] maka Level 2
didapat 1 2 [3 5 6], 1 3 [5 6], dan 1 5 [6] selanjutnya pada level 3 didapat [123,
125, 126], [135,136], dan [156].
Support Counting Using a Hash Tree
Dalam algoritma Apriori, candidate item set dipisahkan menjadi bucket dan
disimpan dalam hash tree. Pada gambar 6.11 menunjukkan hash tree. Setiap
internal node dari tree menggunakan fungsi hash yaitu h ( p )=pmod 3 untuk
menentukan cabang dari current node menjadi pengikut selanjutnya. Contoh item
1, 4 dan 7 adalah hash untuk disamakan cabangnyakarena mereka mempunyai sisa
yang sma setelah dilakukan mod 3. Semua candidate item set disimpan dalam leaf
none pada hash tree. Hash tree yang ditunjukkan pada gambar 6.11 mempunyai 15
candidate 3-itemset dan diuraikan menjadi 9 leaf node.
6.2.5 Computational Complexity
Computational complexity dari algoritma apriori dapat dibuat dari beberapa factor
dibawah ini :
Support Threshold menurunkan hasil support threshold dari frequent item
lainnya. Ini dapat menaikan jumlah dari candidate dan jarak maksimal dari
frequent itemsets.
Number of Items (Dimensionality) ruang lainnya diperlukan untuk menyimpan
jumlah support dari setiap item. Jika jumlah dari frequent item naik juga maka
kedua perhitungan dan cost I/O dapat dinaikkan juga.
Number of Transaction karena apriori dibuat multiple passes, run time dari
algoritma dapat dinaikkan dengan jumlah dari transaksi.
Average Transaction Width transaction width dinaikkan dengan kepadatan
dataset. Ini dapat menaikan jarak maksimal dari frequent itemset dan traversals
dari hash tree (jumlah subset pada transaksi dinaikkan dengan lebarnya).
Detail analisis dari waktu kompleksitas dari algoritma apriori adalah :
Generation of Frequent 1-itemset untuk setiap transaksi dibutuhkan update
jumlah support dari semua item yang ada pada data transaksi. Asumsikan w
adalah rata-rata transaction width operasi ini memerlukan O(Nw), dimana N
adalah jumlah total dari transaksi.
Candidate Generation untuk menghasilkan candidate k-itemset, bagian dari
frequent (k-1)-itemset digabung untuk menentukan apakah memiliki (k-2) yang
sama. Jadi semua jumlah penggabungan item set adalah
∑k =2
w
(k−2)|C2|<cost of merging<∑k=2
w
(k−2)¿ Fk−1∨¿2 ¿
Cost untuk population candidate item pada hash tree adalah O ¿ karena
mempunyai maksimum depth dari tree adalah k.
Support Counting setiap transaksi dari jarak |t| menghasilkan (¿ t∨¿k ) itemset
dari ukuran k. ini juga merupakan jumlah efektif dari hash tree untuk setiap
transaksi. Cost support countingnya adalah O(N ∑k
(wk)α k). Dimana w adalah
maksimum transaction width dan α k adalah update dari jumlah support dari
candidate k-item pada hash tree.
6.3 Rule Generation
Cara mengekstrak association rule yang efisien dari frequent item. Setiap frequent
k-itemset, Y, dapat menghasilkan 2k−2 association rules. Association rule dapat
diekstraksi dengan mempartisi y membagi 2 himpunan bagian yang tidak kosong
{}.
6.3.1 Confidence based Pruning
Confidence tidak banyak memiliki monotone property. Theorem dari Confidence
ini adalah
if a rule X Y –X does not satisfy the confidence threshold, then any rule X’ Y-
X’, where X’ is a subset of X, must not satisfy the confidence threshold as well
6.3.2 Rule Generation in Algorithm Apriori
Algoritma Apriori menggunakan pendekatan level-wise untuk menghasilkan
association rule, dimana setiap level yang sesuai untuk jumlah dari item termasuk
untuk rule consequent. Awalnya, high-confidence rules hanya mempunyai satu
rule consequent yang diekstrak. Kemudian rule ini yang digunakan untuk
membuat association rule yang baru. Jika banyak node yang mempunyai lattice
yang low confidence maka menurut Theorem 6.2 seluruh subgraf merentang ke
node yang dapat menjadi pruned immediately. Theorem 6.2 ditunjukkan pada
Table 6.1 *
6.4 Compact Representation of Frequent Itemsets
Pada prakteknya, frequent item menghasilkan data transaksi yang sangat besar. Ini
berguna untuk mengidentifikasi wakil set yang kecil dari itemset dimana frequent
itemset lainnya berasal.
6.4.1 Maximal Frequent Itemsets
Adalah frequent itemset yang tidak memeiliki superset terdekat dari frequent.
Maximal Frequent Itemset memberikan gambaran yang jelas untuk data set yang
diproduksi sangat lama. Namun pendekatan ini hanya dapat digunakan jika
algoritma efficient eksis untuk menemukan maximal frequent itemset tanpa
menghitung subset lainya. Meskipun memberikan gambaran yang baik maximal
frequent itemsets tidak mengandung support informasi dari suset mereka sendiri.
Contohnya support dari maximal frequent itemset {a,c,e}, {a,d}, dan {b,c,d,e}
tidak memberikan petunjuk yang banyak tentang support dari subset mereka.
6.4.2 Closed Frequent Itemsets
Memberikan gambaran minimal dari itemset tanpa menghilangkan support
informasinya.
Definition 6.4 Closed Item adalah sebuah itemset X ditutup jika tidak ada superset
yang memiliki jumlah support yang sama.
Dengan kata lain, X tidak ditutup jika paling tidak salah satu superset terdekat
memeiliki jumlah yang sama dengan X. Gambar 6.17* menunjukkan contoh dari
closed frequent itemsets.
Definition 6.5 Closed Frequent Itemsets adalah itemset adalah closed frequent
item jika ditutup dan support lebih besar atau sama dengan minsup.
6.5 Alternative Method for Generating Frequent Item
Apriori adalah salah satu algoritma paling awal yang berhasil membahas
kombinatorial explosion dari frequent itemset generation. Beberapa metode
alternative yang telah dikembangkan untuk mengatasi keterbatasan dari ini dan
memperbaiki effisiensi dari algoritma apriori. Berikut ini adalah diskripsi high-
level dari metode ini :
Traversal of Itemsets Lattice pencarian untuk itemset sering menjadi konsep
yang dipandang sebagai tranversal dari itemset lattice. Stategi pencarian yang
digunakan oleh algoritma untuk menentukan bagaimana itemset lattice
menunjukkan proses dari frequent itemset generation.
General to Specific vs Specific to General algoritma Apriori menggunakan
strategi pencarian general to specific dimana bagian dari frequent (k-1)-itemsets
digabungkan untuk menghasilkan candidate k-items. Strategi pencarian General to
specific adalah efektif, menampilkan maximum length dari frequent itemset yang
tidak terlalu panjang. Strategi pencarian Specific to general alternative untuk
melihat frequent item pertama sebelum mencari frequent item yang lebih umum.
Strategi ini berguna untuk menemukan maksimal frequent item dalam transaksi
dense, dimana batas dari frequent item adalah terletak dibawah dengat dengan
lattice. Gambar 6.19* menunjukkan General to specific dan Specific to Gerenal.
Equivalence Classes cara lain untuk envision transversal adalah pertama partisi
lattice kedalam kelompok yang menguraikan node. Algoritma pencarian frequent
itemsets generation dari frequent itemset dalam keterangan class ekuivalen
pertama sebelum memindahkan klas ekuivalen lainnya. Equivalen class juga dapat
menegaskan menurut label prefix atau suffix dari itemset. Gambar 6.20*
menunjukkan Equivalen Class.
Breadth-first vs Depth-first algoritma apriori yang melewati cara breadth first
ditunjukan pada gambar 6.21(a)*. Hal pertama yang dilakukan adalah menemukan
semua semua frequent 1-itemset, selanjutnya 2-itemset dan begitu seterusnya
sampai tiidak ada itemset baru yang dihasilkan. Itemset lattice juga dapat
melewati cara depth first seperti yang ditunjukan pada Gambar 6.21(b)*.
Pendekatan ini sering digunakan oleh algoritma designed untuk mencari maximal
frequent item. Pendekatan ini memungkinkan batas frequent itemset menjadi
dteksi yang lebih cepat dari Breadth first.
Representation of Transaction of Data set ada banyak cara untuk
merepresentasikan transaksi data set. Pemilihan representasi dapat sebuah I/O
yang timbul ketika menghitung support dari candidate itemsets. Gambar 6.23*
menunjukan perbedaan dari keranjang belanja transaksi. Gambar sebelah kiri
desebut dengan horizontal data layout yang mana diadopsi oleh banyak algoritma
association rule mining dan sebelah kanan disebut vertical data layout. Support
dari setiap candidate itemset adalah memperoleh TID-list dari subset items.
6.6 FP-Growth Algorithm
6.6.1 FP Tree Representation
FP tree adalah kompres representasi dari input data. Hal ini dibangun dengan
membaca data dan menetapkan transaksi pada suatu waktu dan memetakannya.
Sperti transaksi berbeda yang dapat mempunyai beberapa kesamaan pada item
yang ini mungkin akan tumpang tindih. Jika ukuran FP tree lebih kecil untuk
memori utama ini akan memungkinkan untuk mengekstrak frequent itemset secara
langsung dari struktur memori untuk membuat mengulang dara store yang lewat
dari disk. Ukuran dari FP tree biasanya lebih kecil dari ukuran komprensi data
karena banyak data transaksi dari keranjang belanja mempunyai item yang sama.
Dari scenario terbaik dimana semua transaksi memiliki itemset yang sama, FP tree
hanya berisi 1 cabang node.
6.6.2 Frequent Itemset Generation in FP-Growth Algorithm
FP grow adalah algoritma yang menghasilkan frequent item dari FP tree dengan
menjelajahi pohon dari bawah ke atas. Untuk contoh yang lebih konkret tentang
cara untuk memecahkan submasalah dari mencari akhir frequent item dengan e:
Langkah pertama adalah mengathet semua node yang dilewati e.
Inisialisasi dari path disebut dengan prefix path.
Dari prefix path didapat jumlah support dari e adalah penambahan jumlah
support associated dengan node e.
Karena e adalah frequent maka harus mengkonvert prefix path kedalam
conditional FP tree dengan aturan ;
Pertama jumlah support harus mendekati prefix path, karena
beberapa jumlah transaksi tidak mengandung item e.
Prefix path menghilangkan node dari e.
Setelah mengupdate jumlah support dari prefix path, beberapa
yang dari frequent item tidak begitu panjang.
FP grow menggunakan conditional FP Tree untuk e memecahkan sub
masalah dari mencari akhir dari frequent item.
FP-pertumbuhan menggunakan syarat FP-pohon untuk memecahkan
submasalah dan menemukan itemset frequent berakhir dengan de, ce, dan
ae.
6.7 Evaluation of Association Patterns
Algoritma analisis asosiasi memiliki potensi untuk menghasilkan sejumlah besar
pola. Berikut ini adalah beberapa pendekatan untuk menggabungkan subjektif
pengetahuan ke dalam tugas penemuan pola. Set pertama kretiria dapat dibentuk
memalui argument statistic. Dan set kedua kriteria dapat dibentuk melalaui
argument subjektif.
Visualisasi : Pendekatan ini memerlukan lingkungan yang user-friendly untuk
menjaga pengguna.
Template-based Approach : Pendekatan ini memungkinkan pengguna untuk
membatasi jenis pola yang diekstraksi oleh algoritma data mining.
Pengukuran Subyektif Interestingness : Pengukuran subjektif dapat
didefinisikan berdasarkan informasi domain seperti hirarki konsep. Hal ini
digunakan untuk menyaring pola yang jelas dan yang tidak jelas sehingga dapat
dilakukan proses selanjutnya.
6.7.1 Objective Measures of Interestingness
Objective measures adalah pendekatan berbasis data untuk mengevaluasi kualitas
recognition association. Ini adalah domain independen dan membutuhkan
minimal input dari pengguna, selain untuk menentukan ambang batas untuk
penyaringan pola berkualitas rendah. Ukuran yang objektif biasanya dihitung
menggunakan frekuensi jumlah yang ditabulasikan.
Keterbatasan pada Support-Confidence Framework : Aturan asosiasi
formulasi data mining yang bergantung pada support dan langkah-langkah
confidence untuk menghilangkan pola menarik. Kelemahan dari support ini
dijelaskan pada subbab 6.8, dimana pola yang menarik banyak perhatian
menyertakan support item yang rendah dihapuskan oleh support threshold.
Interest Factor : Contoh teh-kopi menunjukkan bahwa tinggi aturan confidence
kadang-kadang bisa menyesatkan karena ukuran confidence mengabaikan support
dari itemset yang muncul dalam aturan konsekuen.
Keterbatasan pada Interest Factor : Dalam domain teks, adalah wajar untuk
menganggap bahwa hubungan antara sepasang kata tergantung pada jumlah
dokumen yang mengandung kedua kata.
Correlation Analysis : Analisis korelasi adalah teknik statistik berbasis untuk
menganalisis hubungan antara sepasang variabel. Untuk terus menerus
variabelkorelasi didefinisikan menggunakan korelasi Pearson koefisien.
Limitations of Correlation Analysis : Meskipun kata-kata yang muncul
bersama-sama lebih sering daripada r dan s, φ-koefisien adalah identik, yaitu, φ
(p, q) =φ (r, s) = 0,232. Hal ini karena φ-koefisien memberikan sama pentingnya
dengan kehadiran rekan-rekan dan tidak adanya item dalam tindakan.
IS Measures : adalah alternative measures yang mempunyai usulan dari variable
asimetris biner. Persamaannya yaitu IS ( A , B )=√I ( A ,B )+s ( A , B )= s ( A ,B )√s ( A ) s (B )
Limitations of IS Measures : nilai IS dari dari bagian nilai independent s(A) dan
s(B). persamaannya yaitu I Sindependent=s ( A , B )
√s ( A ) s ( B )=√s ( A )∗s ( B )
Alternative Objective Interestingness Measures : Selain langkah-langkah yang
diatas, ada langkah alternatif lain diusulkan untuk menganalisis hubungan antara
pasangan variabel biner. Langkah-langkah ini dapat dibagi menjadi dua kategori,
simetris dan asymmetrik tindakan.
Consistency among Objective Measures : Mengingat berbagai tindakan yang
tersedia, adalah wajar untuk mempertanyakan apakah tindakan dapat
menghasilkan hasil yang sama ketika memesan diterapkan untuk satu set pola
asosiasi. Jika langkahnya konsisten maka dilakukan dengan evaluation matric.
Selain itu ini sangat penting untuk dimengerti dimana pengukuran ini cocok untuk
menganalisis berbagai tipe dari pola.
Properties of Object Measures
Memeriksa property dari pengukuran yang dilakukan dengan :
- Inversi Properti : Ukuran yang obyektif M adalah invarian bawah operasi
inversi jika nilainya tetap sama ketika bertukar penghitungan frekuensi f11
dengan f00 dan f10 dengan f01 .
- Null Addition Properti : Ukuran yang obyektif M adalah lain di bawah
operasi penjumlahan null jika itu tidak efektif dengan meningkatkan f00.
Sementara semua frekuensi lainnya dalam tabel kontingensi tetap sama.
- Scaling Properti : Ukuran yang obyektif M adalah invarian dalam operasi
skala baris / kolom jika M(T) = M(T), dimana T adalah tabel kontingensi
dengan jumlah frekuensi [f11, f10, f01, f00 ], dengan jumlah frekuensi skala
[k1k3f11 ; k2k3f10 ; k1k4f01 ; k2k4f00 ], dimana k1,k2,k3,k4 adalah konstanta
positif.
6.7.2 Measures beyond Pairs of Binary Variable
Langkah-langkah, seperti interest factor, IS, P S, dan Jaccard koefisien, cukup
dapat menjadi cenderung lebih dari dua variabel menggunakan tabel frekuensi
ditabulasikan dalam multidimensi kontingensi meja.
6.7.3 Simpson Paradox
Sangat penting untuk berhati-hati ketika menafsirkan hubungan antara variabel
karena hubungan yang diamati mungkin dipengaruhi oleh kehadiran faktor-faktor
lain, yaitu, variabel tersembunyi yang tidak termasuk dalam analisis. Dalam
beberapa kasus, variabel tersembunyi dapat menyebabkan hubungan antara
sepasang variabel menghilang atau membalikkan arahnya, ini dikenal sebagai
Simpson Paradox. Standarfikasi yang tepat diperlukan untuk menghindari
membangkitkan pattern palsu dari simpson paradox. Contohnya adalah keranjang
belanja dari sebuah rantai supermarket besar yang harus di kelompokkan
berdasarkan lokasi toko.
6.8 Effect of Skewed Support Distribution
Kinerja dari algoritma analisis asosiasi banyak dipengaruhi oleh sifat data masukan.
Contohnya, kompleksitas komputasi Algoritma Apriori tergantung pada properti seperti
jumlah item dalam data dan lebar rata-rata transaksi. Bagian ini membahas property
penting yang memiliki pengaruh signifikan pada kinerja algoritma asosiasi analisis serta
kualitas pola diekstraksi. Lebih spesifik, kita fokus pada titik data dengan distribusi
dukungan miring, di mana sebagian besar item memiliki relatif rendah untuk frekuensi
sedang, tetapi sejumlah kecil memiliki frekuensi sangat tinggi.
LAMPIRAN
1. Contoh transaksi
2. Menjumlahkan support dari candidate itemset
3. Ilustrasi prinsip Apriori
4. Ilustrasi algoritma Apriori
5. Ilustrasi dari Support Counting
6. Hash Tree
7. Tabel theorem 6.2
8. Contoh Closed Frequent Itemsets
9. General to Specific dan Specific to General
10. Equivalen Class
11. Breadth first dan Depth first
12. Vertical dan Horizontal data format
top related