pertemuan 3univbsi.id/pdf/2014/602/602-p03.pdfuntuk melihat produk apa yang harus dijual dengan ......

26
Pertemuan 3 KAIDAH ASOSIASI, PENCARIAN POLA SEQUENSIAL, DAN DATA

Upload: tranlien

Post on 23-Jul-2019

233 views

Category:

Documents


0 download

TRANSCRIPT

Pertemuan 3

KAIDAH ASOSIASI, PENCARIAN POLA

SEQUENSIAL, DAN DATA

4. Kaidah Asosiasi (association rules)

Mendeteksi kumpulan atribut-atribut yang muncul bersamaan (co-occur) dalam frekuensi yang sering, dan membentuk sejumlah kaidahdari kumpulan-kumpulan tersebut.

Contoh: 90% orang yang berbelanja disuatu supermarket yang membeliroti juga membeli selai, dan 60% dari semua orang yang berbelanjamembeli keduanya.

Jika diberikan sekumpulan record yang masing-masing terdiri darisejumlah item dari kumpulan yang diberikan, akan menghasilkanaturan ketergantungan (dependency rules) yang akan memprediksikejadian dari satu item berdasarkan kejadian item lainnya.

4. Kaidah Asosiasi (association rules) Lanjutan

Contoh aplikasi kaidah asosiasi adalah:

1. Marketing and Sales Promotion

Misalkan diketahui aturan ketergantungan dimana

{Bagels, ... } {Potato Chips}

Potato chips sebagai consequent => dapat digunakan untuk menentukan apa yang dapat dilakukan untuk meningkatkan penjualan

Begels in the antecedent => Dapat digunakan untuk melihat produk mana yang akan terkena dampak jika took tersebut tidak lagi menjual bagels

Begels in antecedent and Potato chips in consequent => Dapat digunakan untuk melihat produk apa yang harus dijual dengan bagels untuk mempromosikan penjualan Potato chips

1. Inventory management

4. Kaidah Asosiasi (association rules)Contoh aplikasi kaidah asosiasi adalah:

2. Supermarket shelf management

Tujuan: untuk mengenali item-item yang dibeli bersama-sama oleh banyak pelanggan

Pendekatan: Memproses data point of sales yang dikumpulkan dengan pemindai barcode untuk menemukan katergantungan antar item

Aturan klasik: Jika seorang pelanggan membeli diapers dan susu maka dia akan juga membeli beer. Sehingga jangan kaget jika akan menemukan enam pak beer yang ditumpuk dekat diapers

1. Inventory management

4. Kaidah Asosiasi (association rules) Lanjutan

Contoh aplikasi kaidah asosiasi adalah:

3. Inventory management

Tujuan: Seorang pelanggan perusahaan perbaikan peralatanmengharapkan keaslian dar perbaikan produk konsumen danmenjaga pelayanan dengan menggunakan suku cadang yang baikuntuk mengurangi jumlah kunjungan ke rumah pelanggan.

Pendekatan:

Memproses data peralatan dan suku cadang yang dibutuhkan padaperbaikan sebelumnya ditempat pelanggan yang berbeda danmenemukan pola-pola kejadian yang berulang

5. Pencarian pola sekuensial (sequence mining)

Mencari sejumlah event yang secara umum terjadi bersama-sama. Contoh, dalam satu set urutan DNA, ACGTC diikuti oleh GTCA setelah suatu celah selebar 9 dengan probabilitas sebesar 30%

Jika diberikan sekumpulan obyek, dengan masing-masing obyek dihubungkan dengan waktu kejadiannya maka didapatkan pola yang memprediksi ketergantungan sekuensial yang kuat diantara kejadian-kejadian yang berbeda.

Data

• Himpunan data (data set) merupakan kumpulan dari objek danatributnya.

• Atribut merupakan sifat atau karakteristik dari suatu objek. Contoh: warna mata seseorang, suhu, dsb.

• Atribut juga dikenal dengan istilah variable, fileld, karakteristik ataufitur

• Kumpulan dari atribut menggambarkan sebuah objek

• Objek biasanya juga disebut record, titik, kasus, sample, entitas atauinstance

TId Refund Marital Status Taxable

Income

Cheat

1 Yes Single 125K No

2 No Married 100K No

3 No Single 70K No

4 Yes Married 120K No

5 No Divorced 95K Yes

6 No Married 60K No

7 Yes Divorced 220K No

8 No Single 85K Yes

9 No Married 75K No

10 No Single 90K Yes

Perbedaan atribut dan objekattributes

ob

ject

Nilai-nilai atribut adalah angka atau simbol yang memberi nilai pada atribut tersebut.Perbedaan antara atribut dan nilai atribut adalah:

Atribut yang sama dapat dipetakan ke nilai atribut yang berbeda, contoh: ketinggiandapat diukur dengan satuan kaki atau meter

Atribut yang berbeda dapat dipetakan ke himpunan nilai yang sama, contoh: nilai atributuntuk ID dan umur adalah bilangan bulat, tetapi sifat dari nilai atribut dapat berbeda. IDtidak terbatas tetapi umur mempunyai nilai minimal dan nilai maksimal

Tipe dari suatu atribut tergantung pada sifat yang dimiliki berikut ini:

• Pembeda (distinctness)

• Urutan (order)

• Penjumlahan (addition)

• Perkalian (multiplication)

Perbedaan atribut dan Objek Lanjutan

Perbedaan atribut dan objek Lanjutan

• Atribut dapat dibedakan dalam tipe-tipe yang berbeda bergantung pada tipe domainnya, yaitu bergantung pada tipe nilai yang diterima. Atribut kategorikal (categorical attribute) adalah salah satu tipe yang domainnya merupakan sebuah himpunan simbol berhingga.

Contoh: Jenis kelamin, status, dan pendidikan, dimana domain (jenis kelamin) = {L,P}, domain status = {Menikah, Belum Menikah} dan domain (Pendidikan) = {SD, SMP, SMA, D3, S1, S2, S3, lainnya}.

• Atribut katagorikal dibedakan menjadi dua tipe:

1. Nominal jika nilainya tidak dapat diurutkan, missal: jenis kelamin

2. Ordinal jika nilainya dapat diurutkan, missal: rasa pedas keripik singkong punya skala 1-10

Tipe atribut

• Atribut dapat dibedakan dalam tipe-tipe yang berbeda bergantung pada tipe domainnya, yaitu bergantung pada tipe nilai yang diterima. Atribut kategorikal (categorical attribute) adalah salah satu tipe yang domainnya merupakan sebuah himpunan simbol berhingga.

Contoh: Jenis kelamin, status, dan pendidikan, dimana domain (jenis kelamin) = {L,P}, domain status = {Menikah, Belum Menikah} dan domain (Pendidikan) = {SD, SMP, SMA, D3, S1, S2, S3, lainnya}.

• Atribut katagorikal dibedakan menjadi dua tipe:

1. Nominal jika nilainya tidak dapat diurutkan, missal: jenis kelamin

2. Ordinal jika nilainya dapat diurutkan, missal: rasa pedas keripik singkong punya skala 1-10

Tipe atribut Lanjutan

• Atribut numerik (numeric attribute) yang domainnya berupa bilangan riil atau integer.

Contoh: umur dan gaji.domain(umur) = domain(gaji) = bilangan riil positif.

Atribut numerik dibedakan menjadi dua tipe:

1. Interval untuk jenis atribut ini mempunyai sifat bahwa perbedaan antara nilai-nilainya sangat berarti.

2. Rasio dalam atribut jenis ini, baik beda maupun rasio sangat berarti

Tipe atribut Lanjutan

Atribut berdasarkan jumlah nilainya dibedakan menjadi dua tipe:

1. Atribut diskrit hanya menggunakan sebuah himpunan nilai berhingga atau himpunan nilai tak berhingga yang dapat dihitung. Contoh: nomor kode pos. Sering dinyatakan sebagai variabel bilangan bulat (integer)

2. Atribut kontinyu menggunakan bilangan riil sebagai nilai atribut. Contoh: suhu, ketinggian atau berat. Sering dinyatakan sebagai variabel desimal (floating-point)

Karakteristik umum himpunan data (data-set)

Dimensionality

Dimensionalitas dari sebuah data-set adalah jumlah atribut yang dimiliki oleh objek-objek dalam data-set

Data dengan jumlah dimensi kecil punya kecenderungan berbeda secara kualitatif dibandingkan dengan data dimensi tinggi

Kesulitan yang berhubungan dengan data dimensi tinggi sering disebut sebagai curse of dimensionality

Untuk itu pada tahap preprocessing perlu dilakukan pengurangan dimensi (dimensionality reduction)

Karakteristik umum himpunan data (data-set)Lanjutan Sparsity

Untuk beberapa data-set, misalkan data dengan fitur asimetris, kebanyakan atribut dari suatu objek mempunyai nilai 0; dan biasanya kurang dari 1% mempunyai nilai tidak nol

Sparsity mempunyai keuntungan dalam waktu komputasi dan penyimpanan data

Resolution

Sifat dari data berbeda pada resolusi yang berbeda

Pola dalam data bergantung pada level resolusi

Jika resolusi terlalu baik (tidak ada perbedaan/halus), pola mungkin tidak akan kelihatan; jika resolusi terlalu kasar, pola juga akan hilang

Tipe dari himpunan data (data-set)

Record data

Data yang terdiri dari sekumpulan record, yang masing-masing terdiri dari satu set atribut yang tetap.

Yang termasuk dalam tipe data record:

1. Data Matrix

Jika objek data mempunyai himpunan atribut numerik yang sama, maka objek data tersebut dapat dianggap sebagai titik-titik dalam ruang multi dimensi, dimana masing-masing dimensi menyatakan satu atribut yang berbeda. Data-set tertentu dapat dinyatakan dengan matrix n x m, dimana terdapat m baris, satu baris untuk tiap objek, dan n kolom, tiap kolom mewakili satu atribut

Contoh data matrix

Projection

of x Load

Projection

of y Load

Distance Load Thickness

10.23 5.27 15.22 2.7 1.2

12.65 6.25 16.22 2.2 1.1

Tipe dari himpunan data (data-set) Lanjutan

Yang termasuk dalam tipe data record:

2. Data Dokumen

Dimana tiap dokumen menjadi satu vektor “term”. Tiap term merupakan satu komponen (atribut) dari vektor tersebut. Nilai dari tiap komponen menyatakan berapa kali kemunculan term tersebut dalam suatu dokumen.

tea

m

Co

ach

pla

y

ba

ll

sco

re

ga

me

win

lost

tim

eo

ut

sea

son

Document1 3 0 5 0 2 6 0 2 0 2

Document 2 0 7 0 2 1 0 0 3 0 0

Document 3 0 1 0 0 1 2 2 0 3 0

Tipe dari himpunan data (data-set) Lanjutan

Yang termasuk dalam tipe data record:

3. Data transaksi

Merupakan sebuah tipe khusus dari record data, dimana tiap record (transaksi) meliputi satu set item. Contoh, misalkan pada sebuah toko kelontong. Himpunan produk yang dibeli oleh seorang pelanggan dalam satu kali belanja merupakan satu transaksi, selama produk yang dibeli tersebut adalah item.

TID Items

1 Bread, Coke, Milk

2 Beer, Bread

3 Beer, Coke, Diaper, Milk

4 Beer, Bread, Diaper, Milk

5 Coke, Diaper, Milk

Tipe dari himpunan data (data-set) Lanjutan

Yang termasuk dalam tipe data record:

3. Data graph

Merupakan data dalam bentuk graph yang terdiri dari simpul (node) dan rusuk (edge). Yang termasuk dalam data graph diantaranya adalah HTML Links (dalam www) dan struktur molekul

4. Data terurut (Ordered Data)

Data-data yang memperhatikan urutan nilai-nilainya. Yang termasuk dalam data terurut adalah Genomic sequence data atau Spatio-Temporal Data

LATIHAN SOAL

1. Jika ingin mengetahui pola belanja konsumen ditoko, dengan tujuan menentukanpenempatan barang ditoko, maka digunakan teknik data mining

A. klasterisasi

B. asosiasi

C. klasifikasi

D. regresi

E. prediksi

2. Kumpulan dari objek dan atributnya disebut dengan

A. data

B. himpunan

C. himpunan data

D. atribut data

E. objek data

Latihan Soal Pertemuan 3

2. Kumpulan dari objek dan atributnya disebut denganA. dataB. himpunanC. himpunan dataD. atribut dataE. objek data

3. Kodepos, dan atribut yang memiliki himpunan nilai yang berhingga maupunyang tak berhingga tetapi bisa dihitung termasuk dalam kelompok atributA. diskritB. kontinyuC. intervalD. nominalE. biner

Latihan Soal Pertemuan 3 Lanjutan

3. Kodepos, dan atribut yang memiliki himpunan nilai yang berhingga maupun yang tak berhingga tetapi bisa dihitung termasuk dalam kelompok atribut

A. diskrit

B. kontinyu

C. interval

D. nominal

E. biner

4. Angka 0,75 atau ¾ , berdasarkan jumlah nilainya dapat dikelompokkan kedalam atribut

A. diskrit

B. biner

C. interval

D. nominal

E. kontinyu

Latihan Soal Pertemuan 3 Lanjutan

4. Angka 0,75 atau ¾ , berdasarkan jumlah nilainya dapat dikelompokkan kedalam atribut

A. diskrit

B. biner

C. interval

D. nominal

E. kontinyu

5. Tipe dari suatu atribut tergantung pada sifat yang dimiliki berikut ini, kecuali

A. pembeda

B. urutan

C. penjumlahan

D. pengurangan

E. perkalian

Latihan Soal Pertemuan 3 Lanjutan

5. Tipe dari suatu atribut tergantung pada sifat yang dimiliki berikut ini, kecuali

A. pembeda

B. urutan

C. penjumlahan

D. pengurangan

E. perkalian

1. Jika ingin mengetahui pola belanja konsumen ditoko, dengan tujuan menentukanpenempatan barang ditoko, maka digunakan teknik data mining

A. klasterisasi

B. asosiasi

C. klasifikasi

D. regresi

E. prediksi

Latihan Soal Pertemuan 3 Lanjutan