bab 2 awal - library.binus.ac.idlibrary.binus.ac.id/ecolls/ethesisdoc/bab2/2007-2-00069 if bab...

46
7 BAB 2 LANDASAN TEORI 2.1 Data Data adalah sebuah representasi penyimpanan dari obyek-obyek dan kejadian-kejadian yang berarti dan penting di lingkungan pemakai. (Hoffer, Prescott, dan M cFadden, 2005, p5). Data merupakan sesuatu yang belum mempunyai arti bagi penerimanya dan masih memerlukan adanya suatu pengolahan. Data bisa berwujud suatu keadaan, gambar, suara, huruf, angka, matematika, bahasa ataupun simbol- simbol lainnya yang bisa kita gunakan sebagai bahan untuk melihat lingkungan, obyek, kejadian ataupun suatu konsep. (http://kuliah.dinus.ac.id). Data adalah bentuk jamak dari datum, berasal dari bahasa Latin yang berarti "sesuatu yang diberikan". Dalam penggunaan sehari-hari data berarti suatu pernyataan yang diterima secara apa adanya. Pernyataan ini adalah hasil pengukuran atau pengamatan suatu variabel yang bentuknya dapat berupa angka, kata-kata, atau citra. (http://id.wikipedia.org) Menurut Hoffer, Prescott, dan McFadden (2005, p5), informasi adalah data yang telah diproses melalui beberapa cara untuk meningkatkan pengetahuan dari orang yang menggunakan data.

Upload: lequynh

Post on 11-Aug-2019

219 views

Category:

Documents


0 download

TRANSCRIPT

7

BAB 2

LANDASAN TEORI

2.1 Data

Data adalah sebuah representasi penyimpanan dari obyek-obyek dan

kejadian-kejadian yang berarti dan penting di lingkungan pemakai. (Hoffer,

Prescott, dan McFadden, 2005, p5).

Data merupakan sesuatu yang belum mempunyai arti bagi penerimanya

dan masih memerlukan adanya suatu pengolahan. Data bisa berwujud suatu

keadaan, gambar, suara, huruf, angka, matematika, bahasa ataupun simbol-

simbol lainnya yang bisa kita gunakan sebagai bahan untuk melihat lingkungan,

obyek, kejadian ataupun suatu konsep. (http://kuliah.dinus.ac.id).

Data adalah bentuk jamak dari datum, berasal dari bahasa Latin yang

berarti "sesuatu yang diberikan". Dalam penggunaan sehari-hari data berarti

suatu pernyataan yang diterima secara apa adanya. Pernyataan ini adalah hasil

pengukuran atau pengamatan suatu variabel yang bentuknya dapat berupa angka,

kata-kata, atau citra. (http://id.wikipedia.org)

Menurut Hoffer, Prescott, dan McFadden (2005, p5), informasi adalah

data yang telah diproses melalui beberapa cara untuk meningkatkan pengetahuan

dari orang yang menggunakan data.

8

Informasi merupakan hasil pengolahan dari sebuah model, formasi,

organisasi, ataupun suatu perubahan bentuk dari data yang memiliki nilai

tertentu, dan bisa digunakan untuk menambah pengetahuan bagi yang

menerimanya. Dalam hal ini, data bisa dianggap sebagai obyek dan informasi

adalah suatu subyek yang bermanfaat bagi penerimanya. Informasi juga bisa

disebut sebagai hasil pengolahan ataupun pemrosesan data.

(http://kuliah.dinus.ac.id)

Informasi adalah istilah dengan banyak arti bergantung pada konteks,

tetapi sebagai aturan berhubungan erat dengan konsep seperti arti, pengetahuan,

negentropy, komunikasi, kebenaran, representasi, dan rangsangan mental.

Sekalipun banyak orang menyatakan munculnya "era informasi",

"masyarakat informasi," dan teknologi informasi, dan sungguhpun ilmu

informasi dan ilmu komputer sering disorot, kata "informasi" sering dipakai

tanpa pertimbangan hati-hati dari berbagai arti yang dimiliki.

(http://id.wikipedia.org).

2.2. Database dan DBMS (Database Management System)

2.2.1 Definisi Database

Menurut Conolly dan Begg (2005, p15), database merupakan

suatu kumpulan data logikal yang terhubung satu sama lain dan deskripsi

dari suatu data yang dirancang sebagai informasi yang dibutuhkan oleh

organisasi, sedangkan menurut McLeod dan Schell (2004, p196),

database adalah kumpulan seluruh sumber data berbasis komputer milik

9

organisasi. Database yang dikendalikan oleh sistem manajemen database

adalah satu set catatan data yang berhubungan dan saling menjelaskan.

Database sangat penting untuk membedakan database dan tempat

penyimpanan. Tempat penyimpanan tersebut berisi tentang pengertian-

pengertian dari data.

Database adalah kumpulan informasi yang disimpan di dalam

komputer secara sistematis sehingga dapat diperiksa menggunakan suatu

program komputer untuk memperoleh informasi dari database tersebut.

Perangkat lunak yang digunakan untuk mengelola dan memanggil query

basis data disebut sistem manajemen basis data (Database Management

System / DBMS). Database system dipelajari dalam ilmu informasi.

(http://id.wikipedia.org)

Dari teori-teori di atas dapat disimpulkan bahwa sistem database

adalah sekelompok elemen yang berupa data, saling terintegrasi dan

berhubungan untuk mencapai tujuan tertentu.

2.2.2. Definisi DBMS (Database Management System)

Conolly dan Begg (2005, p16) mengemukakan DBMS adalah

suatu system software yang memungkinkan user dapat

mengidentifikasikan, membuat, memelihara, dan mengatur akses dari

database.

McLeod dan Schell (2004, p196) menyimpulkan, sistem

manajemen basis data (DBMS) adalah aplikasi perangkat lunak yang

10

menyimpan struktur database, hubungan antar-data dalam database, serta

berbagai formulir dan laporan yang berkaitan dengan database itu.

Sedangkan menurut Hoffer, Prescott, dan McFadden (2005, p7),

DBMS merupakan sebuah system software yang digunakan untuk

menciptakan, memelihara dan menyediakan akses kontrol untuk

pengguna database.

2.2.3. Kelebihan DBMS (Database Management System)

Conolly dan Begg (2005, pp26-29) menguraikan beberapa

kelebihan penggunaan Sistem Manajemen Basis Data (DBMS), yaitu:

- Kontrol terhadap pengulangan data

- Data yang dihasilkan konsisten

- Pada beberapa data yang sama akan semakin banyak informasi yang

diperoleh

- Data dapat dipakai secara bersama-sama

- Meningkatkan integritas data

- Meningkatkan keamanan

- Penetapan standarisasi

- Perbandingan skala ekonomi

- Mengatasi konflik kebutuhan

- Memperbaiki pengaksesan data secara bersama-sama

- Meningkatkan produktivitas

- Memperbaiki pemeliharaan data melalui data yang tidak tergantung

dari data lain

11

- Memiliki backup data dan recovery

2.2.4. Kekurangan DBMS (Database Management System)

Sedangkan kekurangan penggunaan DBMS menurut Conolly dan

Begg (2005, pp29-30) adalah :

- Memiliki sistem yang kompleks

- Karena sistem yang kompleks mengakibatkan DBMS memiliki

ukuran yang semakin besar

- DBMS memiliki harga yang bervariasi tergantung fungsi dan

kebutuhan

- Penambahan biaya untuk perangkat keras yang dibutuhkan

- Penambahan biaya konversi

- Karena DBMS dirancang untuk mengakses lebih dari satu aplikasi

sehingga performasinya menurun

- Kegagalan DBMS mengakibatkan operasi tidak dapat berjalan

2.2.5. Fasilitas yang disediakan DBMS (Database Management System)

Menurut Connolly dan Begg (2005, p40) DBMS menyediakan

fasilitas-fasilitas, yaitu :

- DDL (Data Definition Language) adalah suatu bahasa yang

memperbolehkan DBA (Database Administrator) atau user untuk

mendeskripsikan nama dari suatu entitas, atribut, dan relasi data yang

diminta oleh aplikasi, bersamaan dengan integritas data dan batasan

keamanan datanya.

12

- DML (Data Manipulation Language) adalah suatu bahasa yang

memberikan fasilitas pengoperasian data yang ada dalam basis data.,

misalnya : insert, edit, delete, dan update.

- SQL (Struktur Query Language) adalah sebuah fasilitas yang

digunakan untuk melayani pengaksesan data. Bahasa query yang

paling baik adalah secara de facto yang merupakan standar bagi

DBMS.

2.3. Data Warehouse

2.3.1. Definisi Data Warehouse

Menurut Connolly dan Begg (2005, p1151), data warehouse

merupakan sekumpulan data yang berorientasi subyek, terintegrasi, tidak

mudah berubah, dan berdasarkan kepada suatu rentang waktu tertentu

yang berguna untuk mendukung dalam proses pengambilan keputusan.

Sebuah data warehouse merupakan data manajemen dan teknologi

analisis data.

Menurut Mcleod dan Schell (2004, p205), data warehouse adalah

perkembangan dari konsep database yang menyediakan suatu sumber

data, data yang lebih baik bagi para pemakai dan memungkinkan pemakai

untuk memanipulasi dan menggunakan data tersebut secara intuitif. Data

warehouse berukuran sangat besar, kualitas datanya tinggi, dan sangat

mudah diambil datanya. Beberapa data warehouse berisi sebanyak 200

gigabyte atau 200 juta byte data, tetapi ukuran besar tidak menyebabkan

kualitas data tidak bagus. Karena data cleaning yang ekstensif,

13

penghilangan data-data yang salah dan data yang tidak konsisten dapat

mentransformasi data menjadi data dengan kualitas yang lebih tinggi

daripada yang terdapat dalam database komersial

2.3.2. Karakteristik Data Warehouse

Dari definisi oleh Connolly dan Begg (2005, p1151), karakteristik

dari data warehouse yaitu:

- Subject-oriented artinya data warehouse harus berorientasi pada

subyek yaitu data warehouse dibuat berdasarkan subjek-subjek utama

di dalam bisnis (seperti pelanggan, produk, dan penjualan)

dibandingkan dengan area-area aplikasi utama (seperti bon

pembayaran pelanggan, kontrol stok, dan produk penjualan).

- Integrated artinya data warehouse harus terintegrasi karena sumber-

sumber data warehouse berasal dari berbagai lingkungan bisnis

dengan sistem aplikasi yang berbeda. Sumber data yang terintegrasi

harus dibuat konsisten untuk menampilkan tampilan data kepada user.

- Time variant berarti data warehouse hanya akurat dan valid pada

beberapa poin dalam waktu atau dalam interval waktu tertentu.

- Non-volatile yaitu data tidak di-update dalam waktu nyata (real time)

tetapi data di-refresh dari sistem operasional. Data baru selalu

ditambahkan sebagai sebuah suplemen ke dalam database,

dibandingkan sebagai pergantian data. Database data warehouse

akan selalu mengambil data baru, dan secara berkala diintegrasi

dengan data yang sudah ada.

14

2.3.3. Pengertian OLTP (Online Transaction Processing)

Menurut Connolly and Begg (2005, p1153), sebuah organisasi

menerapkan beberapa sistem OLTP yang berbeda untuk menjalankan

proses bisnis seperti kendali inventori, invoicing, dan point-of-sale.

Sistem ini menghasilkan data operasional yang mendetil, up-to-date, dan

dapat diubah-ubah. Data di dalam OLTP diorganisir berdasarkan

kebutuhan transaksi yang berhubungan dengan aplikasi bisnis serta

mendukung pengambilan keputusan operasional harian.

2.3.4. Model Data Warehouse

Menurut Connoly dan Begg (2002, p1182), setiap model data

warehouse (model dimensional) terdiri dari sebuah tabel dengan primary

key composite yang disebut fact table, dan sebuah kumpulan tabel-tabel

kecil yang disebut dimension table.

Model dimensional merupakan suatu teknik desain logical yang

bertujuan untuk menampilkan data dalam bentuk standar dan intuitif,

yang memungkinkan akses ke performansi yang tinggi.

Model dimensional untuk desain data warehouse yaitu:

- Star schema

Star schema merupakan struktur logical yang memiliki sebuah tabel

fakta (fact table) yang berisi data faktual yang diletakkan di tengah

(pusat), dikelilingi oleh tabel-tabel dimensi yang berisi data referensi

(dimana dapat didenormalisasi).

15

Gambar 2.1 Star Schema

Sumber : (http://publib.boulder.ibm.com)

- Snowflake schema

Snowflake schema merupakan variasi dari star schema dimana tabel

dimensi tidak mengandung data denormalisasi yang memungkinkan

sebuah dimensi untuk mempunyai dimensi lagi.

16

Gambar 2.2 Contoh dari Snowflake Schema

Sumber : (http://publib.boulder.ibm.com)

2.3.5. Arsitektur Data Warehouse

Connolly dan Begg (2005, pp1156-1161) mengidentifikasi 8

komponen data warehouse yang terdapat pada arsitektur data warehouse,

yaitu:

- Operational data

Data operasional berfokus pada fungsi-fungsi transaksional. Data ini

merupakan bagian dari infrastruktur perusahaan, detil, tidak ada

17

redudansi (data tidak berulang-ulang), dapat di-update (diubah-ubah),

dan data ini merefleksikan nilai sekarang.

- Operational datastore (ODS)

ODS adalah tempat penyimpanan sementara dari data operasional

saat ini yang terintegrasi yang digunakan untuk analisis. Membangun

ODS dapat merupakan tahap yang berguna dalam membangun data

warehouse karena sebuah ODS dapat menyuplai data yang sudah

diekstrak dari sistem sumber dan dibersihkan. Ini berarti pekerjaan

mengintegrasi dan merestrukturisasi data untuk data warehouse

menjadi lebih sederhana.

- Load Manager

Load manager menampilkan semua operasi yang terkait dengan

ekstraksi dan loading data ke dalam data warehouse. Data bisa saja

diekstrak secara langsung dari sumber data atau secara umum dari

ODS.

- Warehouse manager

Warehouse manager menampilkan semua operasi yang terkait dengan

manajemen data dari data warehouse. Operasi yang ditampilkan oleh

warehouse manager meliputi:

Analisis data untuk menjamin konsistensi

Transformasi dan penggabungan sumber data dari tempat

penyimpanan sementara ke tabel data warehouse

Pembuatan indeks dan view pada tabel base.

Membuat denormalisasi (jika perlu)

18

Membuat agregasi (jika perlu)

Backing-up dan archiving data

- Query manager

Query manager menampilkan semua operasi yang terkait dengan

manajemen query pengguna. Operasi yang ditampilkan oleh

komponen ini meliputi mengarahkan query pada tabel yang cocok dan

menjadwalkan pelaksanaan query.

- Detailed data

Komponen ini menyimpan semua detail data dalam skema database.

Detail data terbagi 2 yaitu :

Current detail data

Data ini berasal langsung dari operasional database, dan selalu

mengacu pada data perusahaan sekarang. Current detail data

diatur sepanjang sisi-sisi subyek seperti data profil pelanggan,

data aktivitas pelanggan, data sales, data demografis, dan lain-

lain.

Old detail data

Data ini menampilkan current detail data yang berumur atau

histori dari subjek area. Data ini yang dipakai untuk menganalisis

trend yang akan dihasilkan.

- Lightly and highly summarized data

Area data warehouse ini menyimpan semua data lightly dan highly

summarized yang sudah terdefinisi sebelumnya yang dibuat oleh

19

warehouse manager. Tujuan informasi yang terangkum ini adalah

untuk meningkatkan performansi query.

- Archive / backup data

Area warehouse ini menyimpan detail data dan summarized data

dengan tujuan mengarsip dan melakukan backup data.

- Meta data

Meta data merupakan data mengenai data yang mendeskripsikan data

warehouse. Meta data digunakan untuk membangun, memelihara,

mengatur, dan menggunakan data warehouse. Meta data

mengandung lokasi dan deskripsi dari komponen- komponen data

warehouse; nama, definisi, struktur, dan isi dari data warehouse dan

end user view; identifikasi dari pembuat sumber-sumber data (record

system); aturan-aturan integrasi dan transformasi yang digunakan

untuk mempopulasikan data warehouse; histori dari update dan

refresh data warehouse; pola-pola matriks yang digunakan untuk

performa menganalisis data warehouse; dan seterusnya.

- end-user access tool

Tool ini mencakup:

Reporting and query tool

Application development tool

Executive information system (EIS) tool

Online analytical processing (OLAP) tool

Data mining tool

20

Gambar 2.3 Arsitektur Data warehouse

Sumber: Connolly dan Begg (2005, p1157 )

2.3.6. Keuntungan penggunaan Data Warehouse

Menurut Connolly dan Begg (2005, p1152), kesuksesan

pengimplementasian data warehouse dapat memberikan keuntungan

bagi organisasi maupun perusahaan antara lain :

- Adanya kemungkinan balik modal yang tinggi pada investasi

Suatu organisasi harus memberikan sumber daya yang besar untuk

menjamin kesuksesan pengimplentasian data warehouse dan

biayanya bervariasi tergantung dari solusi teknis yang ada. Namun

kemungkinan adanya kondisi balik modal terhadap biaya yang

21

dikeluarkan untuk penginvestasian data warehouse relatif lebih besar.

Sehingga tidak perlu ada kekhawatiran akan anggapan adanya

pemborosan untuk investasi data warehouse ini.

- Keuntungan yang kompetitif

Adanya kemungkinan balik modal yang besar terhadap investasi

merupakan bukti adanya keuntungan yang kompetitif dengan adanya

teknologi ini. Keuntungan kompetitif ini dicapai dengan

memungkinkan para pengambil keputusan untuk mengakses data

yang sebelumnya tidak tersedia, tidak diketahui, atau informasi yang

tidak tercatat

- Meningkatkan produktivitas para pengambil keputusan di

perusahaan.

Data warehouse dapat memungkinkan hal ini dengan

mentransformasikan data menjadi informasi yang berarti. Teknologi

ini menyediakan para manajer bisnis untuk dapat melakukan analisis

yang lebih konsisten sehingga pada akhirnya terjadi peningkatan

produktivitas.

2.4. Data Mining

2.4.1. Definisi Data Mining

Banyak sekali definisi mengenai apa itu data mining. Secara garis

besar data mining merupakan suatu alat yang memungkinkan para

pengguna untuk mengakses secara cepat data dengan jumlah yang besar.

Pengertian yang lebih khusus lagi dari data mining yaitu suatu alat dan

22

aplikasi dengan menggunakan analisis statistik pada data. Data mining

juga dikenal sebagai KDD (Knowledge Data Discovery) di dalam basis

data.

Menurut Conolly dan Begg (2005, p1233), data mining adalah

suatu proses ekstraksi atau penggalian data dan informasi yang besar,

yang belum diketahui sebelumnya, namun dapat dipahami dan berguna

dari database yang besar serta digunakan untuk membuat suatu

keputusan bisnis yang sangat penting.

Menurut Berson dan Smith (2001, p.333) Data mining

menggambarkan sebuah pengumpulan teknik-teknik dengan tujuan untuk

menemukan pola-pola yang tidak diketahui pada data yang telah

dikumpulkan. Data mining memungkinkan pemakai "menemukan

pengetahuan" dalam database yang tidak mungkin diketahui

keberadaannya oleh pemakai.

Beberapa pengertian data mining yang berhasil dihimpun dari

beberapa pendapat adalah sebagai berikut :

1. Secara sederhana dapat didefinisikan bahwa data mining adalah

suatu proses ekstraksi dari informasi atau pola yang penting atau

menarik dari data yang ada di database yang besar sehingga menjadi

informasi yang sangat berharga. (http://ikc.cbn.net.id)

2. Data mining merupakan proses penemuan yang efisien sebuah pola

terbaik yang dapat menghasilkan sesuatu yang bernilai dari suatu

koleksi data yang sangat besar. (http://www.thearling.com)

23

3. Data mining adalah suatu pola yang menguntungkan dalam

melakukan search pada sebuah database yang terdapat pada sebuah

model. Proses ini dilakukan berulang-ulang (iterasi) hingga didapat

satu set pola yang memuaskan yang dapat berfungs i sesuai yang

diharapkan (http://www.db.cs.ucdavis.edu).

Berdasarkan beberapa pengertian diatas dapat ditarik kesimpulan

bahwa data mining adalah suatu algoritma di dalam menggali informasi

berharga yang terpendam atau tersembunyi pada suatu koleksi data

(database) yang sangat besar sehingga ditemukan suatu pola yang

menarik yang sebelumnya tidak diketahui.

2.4.2. Fungsi Data Mining

Data mining mengidentifikasikan fakta-fakta atau kesimpulan-

kesimpulan yang disarankan berdasarkan penyaringan melalui data untuk

menjelajahi pola-pola atau anomali-anomali data. Menurut Turban,

Rainer, dan Potter (2005, p265), data mining mempunyai lima fungsi

yaitu:

1. Classification

Classification yaitu menyimpulkan definisi-definisi karakteristik dari

sebuah grup. Contoh: pelanggan-pelanggan perusahaan yang telah

berpindah ke saingan perusahaan yang lain.

24

2. Clustering

Clustering yaitu mengidentifikasikan kelompok-kelompok dari

barang-barang atau produk-produk yang berbagi karakteristik yang

khusus (clustering berbeda dengan classification dimana pada

clustering tidak terdapat definisi-definisi karakteristik awal yang

diberikan pada waktu classification).

3. Association

Association yaitu mengidentifikasikan hubungan antara kejadian-

kejadian yang terjadi pada suatu waktu seperti isi-isi dari keranjang

belanja.

4. Sequencing

Hampir sama dengan association, sequencing mengidentifikasikan

hubungan-hubungan yang berada pada suatu periode waktu tertentu

seperti pelanggan-pelanggan yang mengunjungi supermarket secara

berulang-ulang.

5. Forecasting

Forecasting memperkirakan nilai pada masa yang akan datang

berdasarkan pola-pola dengan sekumpulan data yang besar seperti

peramalan permintaan pasar.

2.4.3 Tujuan Data Mining

Tujuan dari data mining menurut Hoffer, Prescott, dan McFadden

(2005, p482) antara lain :

25

1. Explanatory

Untuk menjelaskan beberapa kondisi penelitian, seperti mengapa

penjualan truk pick-up meningkat di Colorado.

2. Confirmatory

Untuk mempertegas hipotesis, seperti halnya 2 kali pendapatan

keluarga lebih suka dipakai untuk membeli peralatan keluarga

dibandingkan dengan 1 kali pendapatan keluarga.

3. Exploratory

Untuk menganalisa data untuk hubungan yang baru dan tidak

diharapkan, seperti halnya pola apa yang cocok untuk kasus

penggelapan kartu kredit.

2.4.4 Penerapan Data Mining

Menurut Berson dan Smith (2001, p123), banyak perusahaan-

perusahaan menggunakan data mining untuk :

- Correct data

Pada saat proses menggabungkan basis data secara besar-besaran,

banyak perusahaan menemukan data yang digabungkan tersebut tidak

lengkap, dan terdiri dari informasi yang salah dan bertentangan.

Dengan menggunakan teknik data mining, dapat membantu untuk

mengidentifikasi dan membetulkan kesalahan dengan cara yang

konsisten.

26

- Discover Knowledge

Proses mencari pengetahuan bertujuan untuk menentukan dengan

jelas relationship, pattern, atau correlations yang tersembunyi dari

berbagai tempat penyimpanan data di dalam basis data.

- Visualize Data

Seorang analis harus bisa merasakan sebuah informasi yang besar

yang disimpan di dalam basis data. Tujuannya untuk

“mempermanusiakan” data yang banyak dan menemukan cara yang

terbaik untuk menampilkan data.

2.4.5 Metodologi Data Mining

Sebagai salah satu bagian dari sistem informasi, data mining

menyediakan perencanaan dari ide hingga implementasi akhir.

Komponen-komponen dari rencana data mining menurut Seidman

(2001, p9) adalah sebagai berikut :

1. Analisa Masalah (Analyzing the Problem)

Data asal atau data sumber harus bisa ditaksir untuk dilihat apakah

data tersebut memenuhi kriteria data mining.

Kualitas kelimpahan data adalah faktor utama untuk memutuskan

apakah data tersebut cocok dan tersedia sebagai tambahan. Hasil yang

diharapkan dari dampak data mining harus dengan hati-hati

dimengerti dan dipastikan bahwa data yang diperlukan membawa

informasi yang bisa diekstrak.

27

2. Mengekstrak dan Membersihkan data (Extracting and Cleansing

The Data)

Data pertama kali diekstrak dari data aslinya, seperti dari OLTP basis

data, text file, Microsoft Access Database, dan bahkan dari

spreadsheet, kemudian data tersebut diletakkan dalam data

warehouse yang mempunyai struktur yang sesuai dengan data model

secara khas.

Data Transformation Services (DTS) dipakai untuk mengekstrak dan

membersihkan data dari tidak konsistennya dan tidak kompatibelnya

dengan format yang sesuai.

3. Validitas Data (Validating The Data)

Sekali data telah diekstrak dan dibersihkan, ini adalah latihan yang

bagus untuk menelusuri model yang telah kita ciptakan untuk

memastikan bahwa semua data yang ada adalah data sekarang dan

tetap

4. Membuat dan melatih model (Creating and Training The Model)

Ketika algoritma diterapkan pada model, struktur telah dibangun. Hal

ini sangatlah penting pada saat ini untuk melihat data yang telah

dibangun untuk memastikan bahwa data tersebut menyerupai fakta di

dalam data sumber.

5. Query data dari model data mining (Querying the Model Data)

Ketika model yang cocok telah diciptakan dan dibangun, data yang

telah dibuat tersedia untuk mendukung keputusan. Hal ini biasanya

28

melibatkan penulisan front end query aplikasi dengan program

aplikasi / suatu program basis data.

6. Evaluasi validitas dari mining model (Maintaining The Validity of

The Data Mining Model)

Setelah model data mining terkumpul, lewat beberapa waktu

karakteristik data awal seperti granularitas dan validitas mungkin

berubah. Karena model data mining dapat terus berubah seiring

perkembangan waktu.

2.4.6 Pengertian OLAP (Online Analytical Processing)

Menurut Connolly dan Begg (2005, p1205), OLAP adalah sebuah

perangkat yang menggambarkan teknologi menggunakan gambaran

multidimensi sejumlah data untuk menyediakan akses yang lebih cepat

bagi strategi informasi dengan tujuan mempercepat analisis.

Menurut Mcleod dan Schell (2004, p204), OLAP makin menjadi

fitur umum dalam perangkat lunak sistem manajemen database. Para

penjual memasukkan fitur ini untuk memungkinkan analisis data yang

serupa dengan tabulasi silang statistik.

OLAP adalah teknologi yang memperbolehkan para user untuk

menganalisa basis data yang besar untuk mendapatkan setiap informasi

yang lebih spesifik. Basis data untuk sistem OLAP disusun terstruktur

agar lebih efisien dalam penyimpanan data statis. Karena penyimpanan

OLAP adalah multidimensi, biasanya disebut cube, yang berlawanan

dengan tabel. Yang membuat OLAP unik yaitu kemampuannya untuk

29

menyimpan kumpulan data secara hirarki. Dimensi-dimensi ini

memberikan informasi secara kontekstual dalam bentuk bilangan atau

perhitungan yang diteliti.

OLAP (On-Line Analytical Processing) adalah suatu pernyataan

yang bertolak belakang atau kontras dengan OLTP (On-Line Transaction

Processing). OLAP menggambarkan sebuah kelas teknologi yang

dirancang untuk analisa dan akses data secara khusus. Apalabila pada

proses transaksi pada umumnya semata-mata adalah pada relational

database, OLAP muncul dengan sebuah cara pandang multidimensi data.

Cara pandang multimensi ini didukung oleh teknologi multidimensi

database. Cara ini memberikan teknik dasar untuk kalkulasi dan analisa

oleh sebuah aplikasi bisnis. (http://www.informatika.lipi.go.id )

OLAP adalah sebuah perangkat yang bagus untuk memberikan

pengertian tentang bagaimana cara menghitung yang baik yang terhubung

dengan dimensi. Karena perhitungan yang telah dikalkulasi terlebih

dahulu, maka OLAP membuat navigasi melalui data dengan segera. Ada

dua poin penting dalam data relasional dan OLAP. Pertama adalah OLAP

cenderung memindahkan bagian-bagian yang kecil dari sebuah data di

level manapun. Yang kedua adalah OLAP cenderung memerlukan

definisi yang sukar dari struktur data, dibandingkan dengan apa yang

telah dikerjakan oleh basis data relasional.

OLAP memungkinkan untuk digunakan sebagai penunjang

keputusan tentang tindakan apa yang akan diambil selanjutnya dan sistem

OLAP juga banyak dipergunakan dalam bidang bisnis untuk

30

menghasilkan suatu keputusan yang efektif. Di dalam model data OLAP,

informasi digambarkan secara konseptual seperti kubus (cube), yang

terdiri dari kategori deskriptif (dimensions) dan nilai kuantitif (measures).

Dimensi menggambarkan atribut dari setiap ukuran, biasanya berupa text

dan mempunyai ciri-ciri tersendiri. Sedangkan measure merupakan suatu

data, biasanya berupa numerik, yang menjadi tolak ukuran suatu kejadian

bisnis.

Empat kategori OLAP menurut Conolly dan Begg (2005,

pp1214-1216) :

1. Multidimensional On-Line Analytical Processing (MOLAP)

MOLAP digunakan untuk membangun cube multidimensional dari

data yang disimpan dalam data warehouse. Metode ini sering dipilih

jika data set awal terlalu besar sehingga pemrosesan cube dari data

warehouse asli memerlukan proses batch. Alasan utama

menggunakan metode ini adalah karena mekanisme penyimpanan

MOLAP sangat efektif dalam me-retrieve data secara cepat.

2. Relational On-Line Analytical Processing (ROLAP)

Mekanisme penyimpanan ROLAP menggunakan DBMS orisinil,

seperti SQL Server 2000, untuk menyimpan agregasi dalam bentuk

tabung yang kemudian dapat digunakan oleh mesin OLAP.

Metode penyimpanan ini memiliki beberapa kekurangan. Struktur

tabung ROLAP tidak cukup efisien bagi mesin OLAP untuk

melakukan query. Ketidakefisienan itu memicu performansi yang

buruk pada sistem.

31

3. Hybrid On-Line Analytical Processing (HOLAP)

HOLAP didesain dengan mengkombinasikan keuntungan MOLAP

dan ROLAP dengan menyimpan agregasi level tinggi pada cube

MOLAP dan menyimpan agregasi level rendah dan line item pada

tabel relational database. Karena HOLAP membuat tabel jauh dari

kompleks untuk mengatur bagian relational database, data lebih

mudah dioptimasi melalui indexing.

4. Desktop On-Line Analytical Processing (DOLAP)

Peningkatan kategori yang terkenal dari OLAP adalah DOLAP

(Desktop OLAP). System DOLAP menyimpan data OLAP didalam

file berbasis klien dan mendukung proses multi dimensi

menggunakan sebuah sistem multi dimensi klien. Kebutuhan-

kebutuhan ekstrak data untuk DOLAP relatif kecil yang berada pada

mesin klien.

2.4.7 OLAP vs Data Mining

Baik data mining maupun OLAP merupakan komponen dari

Microsoft Analysis Services. Keduanya menyediakan decision support

tools, namun masing-masing didesain untuk penggunaan yang berbeda.

OLAP pada dasarnya didesain untuk menyimpan data dalam tabel yang

ringkas untuk memfasilitasi retrieve dan navigasi data tersebut oleh end

user.

OLAP dapat digunakan untuk mencoba menemukan data baru,

namun sejak penemuan data telah dilakukan oleh end user, dengan

32

bantuan tool OLAP, penemuan data menjadi berantakan dan tidak

kompeten. Data mining secara otomatis menemukan pola baru dan aturan

yang dapat diterapkan untuk mendapatkan hasil yang akan datang.

Intinya, OLAP adalah tempat penyimpanan dan mekanisme retrieval

yang efisien, sedangkan data mining adalah alat untuk menemukan

knowledge.

Teknologi yang ada di data warehouse dan OLAP dimanfaatkan

penuh untuk melakukan data mining.

Increasing potentialto supportbusiness decisions End User

BusinessAnalyst

DataAnalyst

DBA

MakingDecisions

Data PresentationVisualization Techniques

Data MiningInformation Discovery

Data Exploration

OLAP, MDA

Statistical Analysis, Querying and Reporting

Data Warehouses / Data Marts

Data SourcesPaper, Files, Information Providers, Database Systems, OLTP

Increasing potentialto supportbusiness decisions End User

BusinessAnalyst

DataAnalyst

DBA

MakingDecisions

Data PresentationVisualization Techniques

Data MiningInformation Discovery

Data Exploration

OLAP, MDA

Statistical Analysis, Querying and Reporting

Data Warehouses / Data Marts

Data SourcesPaper, Files, Information Providers, Database Systems, OLTP

Gambar 2.4. OLAP vs Data Mining

Sumber : (http://ikc.cbn.net.id)

Dari gambar diatas terlihat bahwa teknologi data warehouse

untuk melakukan OLAP, sedangkan data mining digunakan untuk

melakukan information discovery yang informasinya lebih ditujukan

untuk seorang Data Analyst dan Business Analyst (dengan ditambah

33

visualisasi tentunya). Dalam prakteknya, data mining juga mengambil

data dari data warehouse. Hanya saja aplikasi dari data mining lebih

khusus dan lebih spesifik dibandingkan OLAP mengingat database

bukan satu-satunya bidang ilmu yang mempengaruhi data mining.

Dengan memadukan teknologi OLAP dengan data mining

diharapkan pengguna dapat melakukan hal-hal yang biasa dilakukan di

OLAP seperti drilling / rolling untuk melihat data lebih dalam atau lebih

umum, pivoting, slicing dan dicing. Semua hal tersebut dapat diharapkan

nantinya dapat dilakukan secara interaktif dan dilengkapi dengan

visualisasi. (www.computing.edu.au).

2.4.8 Proses Data Mining

Gambar 2.5. Proses Data Mining

Sumber: (http://www.cs.ualberta.ca)

34

Fase-fase dimulai dari data mentah dan berakhir dengan

pengetahuan atau informasi yang telah diolah yang didapatkan sebagai

hasil dari tahapan-tahapan berikut (www.csualberta.ca) :

- Data Cleansing, juga dikenal sebagai data cleansing, ini adalah

sebuah fase dimana data-data tidak lengkap, mengandung error dan

tidak konsisten dibuang dari koleksi data, sehingga data yang telah

bersih dan relevan dapat digunakan untuk diproses ulang untuk

penggalian pengetahuan (discovery knowledge).

- Data Integration, pada tahap ini terjadi integrasi data, dimana

sumber-sumber data yang berulang (multiple data), file-file yang

berulang (multiple file), dapat dikombinasikan dan digabungkan

kedalam suatu sumber.

- Data Selection, pada langkah ini, data yang relevan terhadap analisis

dapat dipilih dan diterima dari koleksi data yang ada.

- Data Transformation, juga dikenal sebagai data consolidation. Pada

tahap ini, dimana data-data yang telah terpilih, ditransformasikan

kedalam bentuk-bentuk yang cocok untuk prosedur penggalian

(mining procedure) dengan cara melakukan normalisasi dan agregasi

data

- Data mining, tahap ini adalah tahap yang paling penting, dengan

menggunakan teknik-teknik yang diaplikasikan untuk mengekstrak

pola-pola potensial yang berguna.

35

- Pattern Evaluation, pada tahap ini, pola-pola menarik dengan jelas

merepresentasikan pengetahuan telah diidentifikasi berdasarkan

measure yang telah diberikan

- Knowledge representation, ini merupakan tahap terakhir dimana

pengetahuan yang telah ditemukan secara visual ditampilkan kepada

user. Tahap penting ini menggunakan teknik visualisasi untuk

membantu user dalam mengerti dan menginterpretasikan hasil dari

data mining.

2.5. Teknik Data Mining

Menurut Connolly dan Begg (2005, pp1233-1239), sebelum mengetahui

teknik-teknik yang dapat digunakan dalam data mining, terdapat empat operasi

yang dapat dihubungkan dengan data mining, yaitu:

1. Predictive modeling

Predictive modeling merupakan penjelajahan manusia dalam

mengadakan observasi atau penelitian untuk membentuk sebuah model dari

karakteristik-karakteristik yang penting dari beberapa fenomena. Predictive

modeling dapat digunakan untuk menganalisa database yang sudah ada untuk

menentukan beberapa karakteristik esensial pada data set.

Ada dua teknik yang dapat dilakukan dalam predictive modeling yaitu:

- Classification

Classification digunakan untuk membuat dugaan awal tentang class yang

spesifik untuk setiap record dalam database dari satu set nilai class yang

mungkin.

36

- Value Prediction

Value prediction digunakan untuk memperkirakan nilai numerik yang

kontinu yang terasosiasi dengan record database. Teknik ini

menggunakan teknik statistik klasik dari linear regression dan nonlinear

regression.

2. Database segmentation

Tujuan database segmentation adalah untuk mempartisi database

menjadi sejumlah segmen, cluster, atau record yang sama, dimana, record

tersebut berbagi sejumlah properti dan karenanya record-record tersebut

diharapkan homogen.

3. Link analysis

Tujuan link analysis adalah untuk membuat hubungan antara record

yang individual atau sekumpulan record dalam database. Aplikasi pada link

analysis meliputi product affinity analysis, direct marketing, dan stock price

movement.

4. Deviation detection

Teknik ini seringkali merupakan sumber dari penemuan yang benar

karena teknik ini mengidentifikasi outlier yang mengekspresikan deviasi dari

ekspektasi yang telah diketahui sebelumnya. Operasi ini dapat ditampilkan

dengan menggunakan teknik statistik dan visualisasi.

Aplikasi deviation detection misalnya pada deteksi penipuan dalam

penggunaan kartu kredit dan klaim asuransi, quality control, dan defect

tracing.

37

Menurut Berson dan Smith (2001, pp336-378) dalam data mining

terdapat dua tipe teknik antara lain :

2.5.1. Teknik Klasik (Classical Technique)

2.5.1.1. Statistic

Menurut McClave dan Sincich (2003, p2), statistik

adalah ilmu pengetahuan atau ilmiah tentang data, atau ilmu

yang mempelajari tentang data. Hal ini meliputi

pengumpulan, pengklarifikasian, perangkuman,

pengorganisasian, penganalisaan, dan penterjemahan

informasi tentang perhitungan atau numerik.

Menurut Kvanli, Pavur, dan Keeling (2003, p2),

Statistik adalah ilmu yang terdiri dari peraturan-peraturan

dan ketentuan-ketentuan dalam hal mengumpulkan,

menjelaskan, menganalisa dan menterjemahkan data-data

numerik.

Menurut Berson dan Smith (2001, p291), Statistik

adalah cabang ilmu matematika yang mempelajari tentang

sekumpulan dan deskripsi data yang akan digunakan dalam

membuat laporan tentang informasi yang penting agar

seseorang dapat membuat keputusan yang berguna. Salah

satu keuntungan statistik adalah menampilkan database

dalam tampilan ber-level tinggi yang menyediakan

38

informasi-informasi yang berguna tanpa perlu mengerti

setiap record secara detil.

2.5.1.2. Nearest Neighbour

Teknik prediksi pengelompokan dan nearest

neighbour merupakan teknik tertua yang digunakan dalam

data mining. Nearest neighbour merupakan teknik prediksi

yang hampir sama dengan pengelompokan, untuk

memperkirakan apakah nilai prediksi ada dalam satu record,

mencari kesamaan nilai prediktor di dalam basis data

historis dan menggunakan nilai prediksi dari record yang

“terdekat” untuk tidak membagi-bagikan record.

2.5.1.3. Pengelompokan (Clustering)

Pengelompokan merupakan metode yang

mengklasifikasikan data ke dalam kelompok-kelompok

berdasarkan kriteria dari masing-masing data. Biasanya,

teknik ini dipakai untuk memberikan pengguna akhir sebuah

gambaran level atas dari apa yang telah terjadi di dalam

basis data. Pengelompokan terkadang digunakan untuk

segmentasi.

39

Gambar 2.6 Grafik Teknik Pengelompokan

Sumber : (http://www.togaware.com)

2.5.2. Teknik Generasi Selanjutnya (The Next generation Technique)

2.5.2.1. Decision Tree (Pohon Keputusan)

Pohon keputusan merupakan model prediktif yang

dapat digambarkan seperti pohon, dimana setiap node di

dalam struktur pohon tersebut mewakili sebah pertanyaan

yang digunakan untuk menggolongkan data. Struktur ini

dapat digunakan untuk membantu memperkirakan

kemungkinan nilai dari setiap atribut data.

40

Gambar 2.7 Contoh Pohon Keputusan

Sumber : (http://www.axi.ca)

Beberapa hal menarik tentang tree:

Tree ini membagi data pada setiap cabangnya tanpa

kehilangan data sedikitpun. Jumlah total record pada node

parent sama dengan jumlah total record yang ada pada

node children.

Sangat mudah dimengerti bagaimana sebuah model

dibangun, kebalikan dengan model dari neural network

atau dari statistik standar.

Mudah untuk menggunakan model ini jika kita mempunya

target pelanggan yang sepertinya tertarik dengan

penawaran marketing.

41

Dari perspektif bisnis, decision tree dapat dilihat

sebagai pembuatan segmentasi dari data set yang orisinil.

Segmentasi ini dilakukan untuk beberapa alasan tertentu,

misalnya untuk prediksi dari beberapa potong informasi

yang penting. Meskipun decision tree sendiri dan algoritma

yang membuat decision tree itu mungkin saja sangat

kompleks, namun hasil yang ditampilkan dengan cara yang

mudah dimengerti sangat membantu untuk pengguna bisnis.

Decision tree seringkali dikembangkan untuk

statistician untuk mengotomatisasi proses menentukan field

mana dari database mereka yang benar-benar berguna atau

terkorelasi dengan masalah tertentu yang sedang mereka

usahakan untuk mengerti. Karena itu, algoritma decision

tree cenderung mengotomatisasi seluruh proses pembuatan

hipotesis dan kemudian melakukan validasi yang lebih

komplit dalam cara yang lebih terintegrasi dibanding dengan

teknik data mining lainnya.

Decision tree biasanya digunakan untuk berbagai

kebutuhan:

1. Eksplorasi

Teknologi decision tree dapat digunakan untuk

eksplorasi data set dan masalah bisnis. Hal ini biasanya

dilakukan dengan mencari predictor dan nilai yang dipilih

untuk setiap bagian / cabang dari tree tersebut.

42

2. Preprocessing data

Teknologi ini juga dapat digunakan untuk mengolah

dan memproses data yang dapat digunakan pada algoritma

lain, misalnya neural network, nearest neighbour, dll. Hal

itu dikarenakan algoritma lain memerlukan waktu yang

relatif lama untuk dijalankan jika terdapat jumlah predictor

dalam jumlah besar untuk digunakan sebagai model,

sehingga teknik decision tree biasanya digunakan pada

tahap pertama data mining untuk menciptakan subset yang

berguna dari predictor baru kemudian hasil tersebut akan

dapat dimasukkan pada teknik data mining yang lain.

3. Prediksi

Para analis menggunakan teknologi ini untuk

membangun sebuah model prediktif yang efektif.

Decision tree mempunyai beberapa keuntungan

sebagai berikut (http://en.wikipedia.org):

1. Decision tree mudah dimengerti dan diinterpretasikan.

Orang dapat mengerti model decision tree setelah

penjelasan yang singkat.

2. Penyiapan data untuk decision tree adalah utama dan

tidak dibutuhkan. Teknik lain seringkali membutuhkan

normalisasi data, variabel kosong perlu dibuat, dan nilai

yang kosong harus dihapus.

43

3. Decision tree dapat mengatasi baik data nominal

maupun kategorial. Teknik lain biasanya dispesialisasi di

analisis data set yang hanya mempunyai satu tipe

variabel, contohnya relation rule yang hanya dapat

digunakan dengan variabel nominal atau neural network

yang hanya dapat digunakan dengan variabel numerik.

4. Decision tree merupakan model white box. Jika situasi

yang diberikan kelihatan dalam model, penjelasan untuk

kondisi tersebut dapat dengan mudah dijelaskan dengan

boolean logic. Contoh black box adalah artificial neural

network karena penjelasan untuk hasilnya sangat

kompleks.

5. Decision tree dapat melakukan validasi terhadap model

dengan menggunakan tes statistik. Hal itu akan

memungkinkan untuk menghitung reliabilitas model.

6. Decision tree merupakan teknik yang kuat, dapat bekerja

baik dengan data yang besar dalam waktu yang singkat.

Sejumlah besar data dapat dianalisis dengan

menggunakan personal computer dalam waktu yang

cukup pendek yang memungkinkan pemegang saham

mengambil keputusan berdasarkan analisis tersebut.

Karena nilai decision tree yang sangat tinggi pada

banyak faktor kritis pada data mining, teknik ini dapat

44

digunakan pada berbagai macam masalah bisnis, baik

eksplorasi maupun prediksi.

2.5.2.2. Neural Network (Jaringan Neural)

Jaringan Neural merupakan teknik model prediktif

yang paling kuat. Teknik ini dapat membuat model yang

sangat kompleks yang hampir tidak mungkin untuk mengerti

secara benar, meskipun seorang ahli. Model ini disajikan

dalam nilai numerik dengan perhitungan yang kompleks dan

hasil akhir dari teknik ini juga berupa numerik dan perlu

untuk diterjemahkan jika nilai prediksi aktual berupa

kategori.

2.5.2.3. Rule Induction (Aturan Induksi)

Aturan induksi merupakan bentuk umum dari data

mining dan merupakan bentuk yang sama untuk penemuan

pengetahuan di dalam sistem pembelajaran unsupervised.

Teknik ini dalam basis data dapat menjadi sebuah usaha

besar-besaran dimana semua kemungkinan pola-pola secara

sistematis keluar dari data, dan kemudian akurasi dan arti

ditambahkan kedalam aturan tersebut untuk

memberitahukan pengguna betapa kuat pola dan bagaimana

dapat terjadi lagi.

45

2.6 Marketing (Pemasaran)

2.6.1. Definisi Marketing (Pemasaran)

Pemasaran adalah proses kemasyarakatan dimana individu dan

kelompok memperoleh apa yang mereka butuhkan dan inginkan melalui

penciptaan, penawaran dan pertukaran secara bebas produk dan jasa nilai

dengan pihak lain (www.apindo.or.id )

Pemasaran menurut Mcleod dan Schell (2004, p369) adalah

kegiatan perorangan dan organisasi yang memudahkan dan mempercepat

hubungan pertukaran yang memuaskan dalam lingkungan yang dinamis

melalui penciptaan, pendistribusian, promosi, dan penentuan harga

barang, jasa, dan gagasan.

2.6.2. Unsur-unsur Marketing (Pemasaran)

Unsur-unsur pemasaran menurut Mcleod dan Schell (2004, p369)

adalah:

- Produk (Product)

Produk adalah apa yang dibeli oleh pelanggan untuk memuaskan

keinginannya atau kebutuhannya. Produk dapat berupa barang fisik,

berbagai jenis jasa, atau suatu gagasan.

- Promosi (Promotion)

Promosi berhubungan dengan semua cara yang mendorong penjualan

produk, termasuk periklanan dan penjualan langsung.

- Tempat (Place)

46

Tempat berhubungan dengan cara mendistribusikan produk secara

fisik kepada pelanggan melalui saluran distribusi.

- Harga (Price)

Harga terdiri dari semua elemen yang berhubungan dengan apa yang

dibayar oleh pelanggan untuk produk itu.

2.7. Market Basket Analysis

2.7.1 Definisi Market Basket Analysis

Market Basket Analysis adalah salah satu tipe dari analisis data

untuk pemasaran yang paling berguna dan paling banyak digunakan.

Market Basket Analysis digunakan untuk menemukan relasi atau korelasi

diantara himpunan barang belanjaan (items) dalam keranjang belanja.

Tujuan dari Market Basket Analysis itu sendiri adalah untuk menganalisa

barang-barang yang dibeli oleh pelanggan secara bersamaan, konsep itu

berawal dari gagasan para pelanggan yang meletakkan semua barang

belanjaan mereka ke dalam sebuah kereta dorong (market basket) selama

berbelanja di toko grosir.

Fungsi ini paling banyak digunakan untuk menganalisa data

dalam rangka keperluan strategi pemasaran, desain katalog, dan proses

pembuatan keputusan bisnis.

Aturan asosiasi menangkap barang atau kejadian dalam data

berukuran besar yang berisi data transaksi. Dengan kemajuan teknologi,

data penjualan dapat disimpan dalam jumlah besar yang disebut dengan

“basket data." Penelitian menggunakan dua macam data : transaksional

47

dan non transaksional. Hasil penelitian dengan menggunakan metode

Association Rule dapat ditemukan semua kombinasi dari item, yang

disebut dengan frequent itemsets yang memiliki support yang lebih besar

daripada minimum support. Dari hasil analisa didapatkan karakteristik

nilai minimum support dan minimum confidence dari transaksi yang ada

dalam keranjang belanja. Aturan asosiasi yang dihasilkan dapat

digunakan untuk keperluan promosi, desain, katalog, segmentasi

pelanggan dan target pemasaran.

Efek yang paling nyata Market Basket Analysis adalah

peningkatan penjualan pada toko yang telah menyatukan barang untuk

dijual bersamaan. Fasilitas ini meningkatkan pembelian dan membantu

pelanggan yang ingin membeli barang agar tidak lupa untuk membeli

”pasangannya”. Sebagai tambahan, hal ini juga menambah kepuasan

pelanggan. Mereka tidak perlu melihat seluruh isi toko untuk sesuatu

yang ingin mereka beli.

Jadi dapat disimpulkan keuntungan dari Market Basket Analysis,

pertama-tama adalah secara tidak langsung yaitu pelanggan tidak perlu

memilih produk.

Pemilihan produk tidak diperlukan untuk menjalankan analisa

keranjang. Semua produk dipertimbangkan, dan perangkat lunak data

mining akan menentukan produk yang paling utama.

Metode yang digunakan adalah pertama adalah sangat penting

untuk mempunyai daftar transaksi dan setiap penjualan. Untuk lebih

48

mudahnya kita melihat contoh beberapa dari pelanggan yang membeli

beberapa barang :

Transaksi 1: Frozen pizza, cola, milk

Transaksi 2: Milk, potato chips

Transaksi 3: Cola, frozen pizza

Transaksi 4: Milk, pretzels

Transaksi 5: Cola, pretzels

Masing-masing pelanggan membeli barang yang berbeda-beda

dalam keranjang yang berbeda pula, tidak ada hubungan yang nyata

antara barang-barang tersebut. Langkah pertama dari Market Basket

Analysis adalah menyilangkan data di dalam tabel untuk melihat berapa

seringnya barang tersebut dibeli bersama. Untuk lima pembelian,

tabelnya dapat dilihat seperti ini :

49

Tabel 2.1. Tabel Penjualan produk dalam waktu yang sama

Sumber : (www.megaputer.com)

Frozen Pizza Milk Cola Potato Chips Pretzels

Frozen Pizza 2 1 2 0 0

Milk 1 3 1 1 1

Cola 2 1 3 0 1

Potato Chips 0 1 0 1 0

Pretzels 0 1 1 0 2

Diagonal utama dari tabel di atas menunjukkan bagaimana

seringnya dari setiap barang dibeli. Baris pertama dari tabel menunjukkan

pelanggan yang membeli frozen pizza, satu pelanggan membeli milk, dua

membeli cola, dan tidak ada yang membeli potato chips pretzels. Pada

kenyataannya frozen pizza dan cola dapat dijual bersamaan, dan dapat

diletakkan berdampingan di rak toko. Demikian pula apabila dilihat dari

keseluruhan tabel, hal ini adalah kesempatan untuk menyilangkan

penjualan. Pada baris kedua milk mempunyai penjualan yang bagus tetapi

tidak untuk disilangkan dengan barang yang lain.

Hasil dari Market Basket Analysis sangat bermanfaat sebab

metode ini mengambil asosiasi dengan seketika. Ini adalah perintah " jika

kondisi kemudian menghasilkan."

50

Jika seorang pelanggan membeli frozen pizza, maka mereka

kemungkinan akan membeli cola.

Jika seorang pelanggan membeli cola, maka mereka kemungkinan

akan membeli frozen pizza.

Hal ini dapat dapat membuat toko untuk mempromosikan frozen

pizza dan cola atau meletakkannya di samping frozen pizza,

mengiklankan dua barang tersebut secara bersamaan atau meletakkan

kupon diskon cola di kotak frozen pizza, kepuasan pelanggan

kemungkinan akan meningkatkan penjualan kedua barang

Market Basket Analysis mempunyai beberapa pembatasan. Yang

pertama adalah macam data yang diperlukan untuk melakukan suatu

analisa keranjang yang efektif. Hal itu adalah mempunyai jumlah

transaksi riil untuk mendapatkan data yang berarti, tetapi ketelitian data

didapati jika semua produk tidak dibeli dengan frekuensi yang sama.

Contohnya, jika susu dijual hampir di setiap transaksi, tetapi lem hanya

terjual sekali atau dua kali per bulan, meletakkan mereka berdua ke

dalam keranjang yang sama mungkin akan menghasilkan hasil yang

mengesankan. Dengan hanya satu atau dua pelanggan lem, data mining

software akan menyatakan bahwa lem mempunyai penjualan yang baik

tetapi ini boleh saja menjadi benar untuk analisa satu atau dua pelanggan.

(http://www.megaputer.com)

51

2.7.2 Performing Market Basket Analysis

2.7.2.1 Virtual Items

Kadang-kadang seorang marketer mempertimbangkan

lebih dari satu barang untuk dijual bersama dalam

mengembangkan promosi mereka. Dalam hal ini, data penjualan

dapat ditambahkan dengan penambahan barang virtual. Suatu

barang sebenarnya bukanlah suatu barang riil dijual, tetapi

diperlakukan sebagai satu data oleh software data mining.

Maka jika pelanggan baru memesan sweater dan suatu jacket,

ini dapat dimasukkan ke database seperti:

Barang 1: Sweater

Barang 2: Jacket

Barang 3: (new customer)

Barang virtual juga bermanfaat untuk menguji efek

promosi. Dengan menambahkan barang virtual untuk

mengadakan promosi atau potongan, yang juga dapat berguna

untuk melihat bagaimana pengaruh dari cross-selling.

(http://www.megaputer.com)

52

2.7.3 Pengimplementasian Hasil

2.7.3.1 Penempatan Rak

Hasil dari penggunaan Market Basket Analysis dapat

diimplementasikan oleh toko-toko atau perusahaan ritel untuk

mengubah penempatan produk dalam rak mereka untuk

meningkatkan keuntungan. (http://www.megaputer.com)

2.7.3.2 Product Bundling

Untuk beberapa perusahaan yang tidak mempunyai

tempat penyimpanan barang (rak-rak), seperti perusahaan

pengiriman barang atau surat (mail-order companies), Internet

businesses, market basket analysis dapat lebih berguna jika

digunakan untuk meningkatkan promosi-promosi dibandingkan

dengan mengatur penempatan produk. Dengan menawarkan

promosi-promosi, seperti misalnya, pembeli dari suatu produk

tertentu akan mendapatkan diskon untuk produk sejenis lainnya,

maka penjualan kedua produk tersebut akan mengalami

peningkatan. (http://www.megaputer.com)