bab 2 landasan teori data warehouse ,maka pada sub bab...

7

BAB 2

LANDASAN TEORI

2.1 Teori Dasar/Umum

Agar dapat melakukan analisis dan perancangan data warehouse,maka pada sub bab

ini akan menjelaskan beberapa konsep dasar data warehouse yang dijadikan acuan dan

landasan. Konsep – konsep tersebut merupakan teori – teori yang berhubungan dengan

perancangan data warehouse.

2.1.1 Database

Menurut Connolly dan Begg (2005, p15), database merupakan sebuah

koleksi berbagai data logis yang saling terkait, dan merupakan deskripsi dari

data, yang dirancang untuk memenuhi kebutuhan informasi dari suatu

organisasi.

Dan menurut Rainer dan Turban (2009, p412), database merupakan

sekelompok file logis yang memiliki keterkaitan menyimpan data dan asosiasi

di antara mereka.

Jadi, database adalah kumpulan data yang saling berhubungan dan

disimpan dalam suatu format tertentu dan dirancang untuk menyediakan

kebutuhan informasi dalam organisasi.

2.1.2 Pengertian Online Transaction Processing (OLTP)

Menurut Kimball (2002, p408), OLTP adalah gambaran pasti dari segala

aktifitas dan asosiasi sistem dengan menginput data yang dapat dipercaya ke

dalam database. OLTP menggambarkan sebuah kebutuhan sistem dalam

8

ruang lingkup operasional dan merupakan proses yang dapat mendukung

kegiatan bisnis sehari – hari.

Menurut Connolly dan Begg (2010, p1199), OLTP adalah sebuah

sistem yang telah dirancang untuk menangani pemrosesan transaksi tingkat

tinggi, dengan transaksi yang secara umum membuat perubahan kecil pada

data operasional organisasi, yang dibutuhkan oleh organisasi untuk menangani

operasi sehari – hari.

Menurut Erick dan Tri (2010, p82) , pengertian OLTP adalah suatu

pemrosesan yang menyimpan data mengenai kegiatan operasional transaksi

dalam perusahaan sehari – hari.

Jadi dapat disimpulkan bahwa OLTP merupakan sebuah sistem

pemrosesan data yang menyimpan transaksi data operasional dalam

perusahaan.

2.1.3 Pengertian Online Analytical Processing (OLAP)

Menurut Kimball dan Ross (2002, p408), OLAP merupakan kumpulan

aturan yang menyediakan sebuah kerangka dimensional untuk mendukung

keputusan.

Menurut Rainer dan Turban (2009, p417), OLAP ialah analisis data

yang dikumpulkan atau diakumulasikan oleh pengguna akhir atau end user.

Menurut Claudia, Nicholas dan Jonathan (2003, p404), OLAP

merupakan istilah yang diciptakan oleh EF Codd yang mengacu pada software

yang memungkinkan interaktif analisis data melalui antarmuka manusia-

komputer. Hal ini umumnya digunakan untuk label kategori teknologi

perangkat lunak yang memungkinkan analis, manajer, dan eksekutif untuk

melakukan akses data ad hoc dan analisis berdasarkan dimensinya. Bentuk

analisis multidimensi menyediakan wawasan bisnis melalui akses yang

9

konsisten dan cepat, interaktif untuk berbagai kemungkinan pandangan

informasi. Namun, istilah itu sendiri tidak menyiratkan penggunaan analisis

multidimensi atau struktur.

Jadi, OLAP merupakan suatu pemrosesan data yang berfungsi

menganalisis data transaksi bisnis yang disimpan dalam data warehouse untuk

membuat keputusan bisnis yang strategis.

2.1.4 Pengertian Entity Relationship (ER) Modeling

Menurut Connolly dan Begg (2010, p371), Entity Relationship

Modelling merupakan pendekatan top – down untuk mendesain database yang

diawali dengan mengidentifikasikan data penting yang disebut dengan entities

dan relationships diantara data – data yang harus direpresentasikan dalam

model.

Menurut Rainer dan Turban (2009, p413), Entity Relationship

Modelling adalah proses perancangan database dengan mengorganisir entitas

data yang akan digunakan dan mengidentifikasi hubungan di antara mereka.

Jadi dapat disimpulkan ER-Modeling merupakan proses peerancangan

database yang mengidentifikasikan entitas dan relationship diantara data –

data dan direpresentasikan dalam model.

2.1.5 Pengertian Entity Relationship Diagram (ERD)

Menurut Doro dan Stevalin (2009, p71), pengertian ERD ialah

merupakan suatu metode pemodelan data yang menggambarkan entitas –

entitas yang ada pada suatu database dan relasi atau hubungan dari masing –

masing entitas tersebut.

Menurut Connolly dan Begg (2010, p330), ERD digunakan untuk

menggambarkan struktur logical database dalam bentuk diagram. ERD

10

menyediakan cara yang sederhana dan mudah untuk memahami berbagai

komponen dalam desain database.

Dapat disimpulkan bahwa ERD adalah sebuah pemodelan data yang

menggambarkan relasi atau hubungan antara entitas yang satu dengan entitas

lainnya.

2.1.6 Pengertian Data Warehouse

Menurut Rainer dan Turban (2009, p412), Data warehouse adalah suatu

tempat penyimpanan data histori yang berorientasi objek, yang telah diatur

agar dapat diakses dan diterima untuk aktivitas proses analisa.

Menurut Kimball dan Ross (2002, p397), Data warehouse adalah

perpaduan dari data perusahaan atau organisasi, baik dari staging area

maupun area presentasi, dimana data operasional terlihat secara spesifik,

terstruktur untuk query dan analisis performansi sehingga memudahkan

penggunaan.

Menurut Connolly dan Beg (2010, p1197), Data warehouse adalah

sekumpulan data yang berorientasi subjek, terintegrasi, memiliki varian

waktu, dan tidak berubah yang dapat mendukung fungsi dari decision support

system (DSS), dimana setiap unit data relevan untuk beberapa saat dalam

suatu waktu. Data warehouse berisikan data atomik dan ringkasan data.

Jadi, Data Warehouse merupakan kumpulan data yang berorientasi

subjek, terintegrasi datanya, tidak berubah dan memiliki varian waktu yang

berfungsi untuk pengambilan keputusan strategi bisnis.

2.1.7 Karakteristik Data Warehouse

Menurut Inmon (2005, p30) data warehouse mempunyai 4 karakteristik

yang utama, antara lain sebagai berikut :

11

1. Subject-oriented

Subject-oriented maksudnya yaitu data diorganisir

berdasarkan subjek utama dalam lingkungan perusahaan, bukan

berorientasi pada proses atau fungsi aplikasi seperti pada lingkungan

operasional. Misalnya suatu perusahaan otomotif yang membuat

suatu data warehouse yang memiliki subjek utama seperti produk,

penjualan, dan pelanggan.

Gambar 2.1 Subject – Oriented (Inmon, 2005, p30)

2. Integrated

Integrated yaitu data warehouse dapat menyimpan data

sebagai unit tunggal, bukan sebagai kumpulan file-file yang mungkin

mempunyai struktur atau pengaturan yang berbeda yang didapat dari

berbagai sumber yang terpisah. Saat data tersebut diambil, data

diubah, dibentuk ulang, diringkas, dirangkai ulang dan seterusnya.

Hasilnya, ketika telah berada dalam suatu data warehouse, data

memiliki gambaran atau struktur fisik terpadu yang tunggal.

12

Gambar 2.2 Contoh Integrasi Data (Inmon, 2005, p31)

3. Non-volatile

Non-volatile artinya data dalam data warehouse tidak

diperbaharui secara real-time, tetapi diambil dari sistem operasional

secara berkala. Data baru ditambahkan ke database sebagai

pelengkap bukan pengganti, sehingga data histori tetap tersimpan di

dalam database.

13

Gambar 2.3 Non Volatile (Inmon, 2005, p32)

4. Time variant

Time variant artinya setiap unit atau bagian data dalam data

warehouse bersifat akurat atau valid pada rentang waktu tertentu.

Record yang ada dalam data warehouse selalu mempunyai sebuah

bentuk penandaaan waktu yang dapat menunjukan saat dimana

record tersebut masih akurat baik dalam bentuk timestamp untuk

sebuah record tunggal atau time stamp untuk seluruh database.

Gambar 2.4 Time Variant (Inmon, 2005, p32)

14

2.1.8 Struktur Data Warehouse

Menurut Inmon (2005, p33), struktur data warehouse memiliki

beberapa tingkatan detail yang berbeda di dalam data warehouse, yaitu older

level of detail (biasanya pada alternatif, penyimpanan jumlah besar), current

level of detail, lightly summarized data, dan highly summarized data.

Komponen dari struktur data warehouse tersebut dijelaskan sebagai berikut :

1. Current Detail Data

Current detail data merupakan data detail aktif yang

mencerminkan keadaan yang sedang berjalan saat ini dan merupakan

tingkat terendah dalam data warehouse serta biasanya memerlukan

media penyimpanan yang cukup besar karena datanya berukuran

sangat besar yang menyimpan semua informasi dan data yang ada

dalam perusahaan. Alasan yang menyebabkan current detail data

selalu menjadi perhatian utama yaitu :

a) Jumlah data sangat banyak dan disimpan pada tingkat

penyimpanan terendah.

b) Menggambarkan kejadian yang sedang berlangsung dalam

perusahaan dan selalu menjadi perhatian utama.

c) Dapat digunakan dalam merekapitulasi data sehingga

current detail data haruslah akurat.

d) Umumnya selalu disimpan dalam media penyimpanan agar

cepat diakses tetapi membutuhkan biaya yang mahal dan

pengaturannya yang kompleks.

15

2. Old Detail Data

Merupakan data histori perusahaan yang merupakan hasil

backup yang dapat tersimpan dalam media penyimpanan yang

terpisah dan dapat diakses kembali pada saat tertentu. Karena bersifat

backup, maka biasanya data disimpan dalam storage alternatif seperti

tape disk. Data ini biasanya memiliki frekuensi akses yang rendah.

3. Lightly Summarized Data

Lightly summarized data merupakan ringkasan dari current

detail data. Di dalam tahap ini data belum dapat digunakan untuk

pengambilan keputusan karena data masih belum bersifat total

summary dan masih bersifat detail dan biasanya disimpan pada

media penyimpanan seperti disk.

Data ini dirangkum berdasarkan periode yang sesuai dengan

kebutuhan dan tingkatan. Data ini disebut juga dengan data mart.

Akses terhadap data jenis ini banyak digunakan untuk melihat suatu

kondisi yang sedang atau sudah berjalan.

4. Highly Summarized Data

Highly summarized data merupakan tingkat lanjutan dari

lightly summarized data dan merupakan hasil proses summary yang

sudah bersifat total summary. Pada tingkat ini data sangat mudah

diakses dan pada akhirnya dapat digunakan sebagai pengambil

keputusan bagi para eksekutif perusahaan. Hal ini sangatlah

memudahkan para eksekutif karena mereka tidak perlu lagi membaca

atau melakukan analisis dalam waktu yang lama.

16

5. Metadata

Metadata memuat informasi yang penting dalam data

warehouse dan bukan merupakan hasil dari kegiatan operasional

seperti keempat jenis diatas. Metadata digunakan dalam banyak

fungsi, antara lain :

a) Sebagai direktori yang dipakai oleh user dalam mencari

lokasi data dalam data warehouse.

b) Sebagai panduan pemetaan dalam proses transformasi dari

data operasional ke dalam lingkungan data warehouse.

c) Sebagai panduan untuk proses detail data menjadi

summary data untuk diolah menjadi lightly summarized

data dan kemudian menjadi highly summarized data.

Menurut Connolly dan Begg (2010, p1206), metadata

digunakan untuk berbagai tujuan, yaitu :

1. Proses ekstraksi dan loading.

Metadata digunakan untuk memetakan sumber data ke

dalam pandangan umum dari data dalam warehouse.

2. Proses manajemen warehouse.

Metadata digunakan untuk mengotomatiskan pembuatan

tabel ringkasan.

3. Sebagai bagian dari proses manajemen query.

Metadata digunakan untuk menghubungkan suatu query

dengan sumber data yang tepat.

17

Gambar 2.5 Struktur Data Warehouse (Inmon, 2005, p34)

2.1.9 Keuntungan Data Warehouse

Menurut Connolly dan Begg (2010, p1198), data warehouse yang telah

diimplementasikan dengan sukses dapat memberikan keuntungan bagi

organisasi, keuntungan – keuntungan tersebut adalah :

1. Tingkat pengembalian investasi yang tinggi.

Sebuah organisasi menangani sumber daya dalam jumlah

besar untuk memastikan implementasi data warehouse yang berhasil

dan biayanya bisa sangat bervariasi. Berdasarkan penelitian dari

International Data Corporation (IDC), rata – rata tingkat

pengembalian investasi data warehouse dalam 3 tahun mencapai

401% pada tahun 1996.

18

2. Keuntungan kompetitif.

Pengembalian dari investasi yang tinggi bagi perusahaan yang

mengimplementasikan data warehouse dengan berhasil akan

memberikan mereka keuntungan kompetitif. Keuntungan tersebut

didapat dengan mengizinkan pembuat keputusan mengakses data

yang sebelumnya tidak tersedia, tidak diketahui dan informasi yang

belum dimanfaatkan, contohnya seperti tren dan permintaan.

3. Meningkatkan produktivitas para pembuat keputusan

perusahaan.

Data warehouse meningkatkan produktivitas dari pembuat

keputusan perusahaan dengan menciptakan database yang

terintegrasi, konsistensi, berorientasi subjek dan data historis.

Contohnya seperti : dengan merubah data menjadi informasi yang

berarti, data warehouse memungkinkan manajer untuk melakukan

analisis dengan lebih akurat dan konsisten.

2.1.10 Perbandingan OLTP dan Data Warehouse

Menurut Connlly dan Begg (2010, p1199), secara umum terdapat

perbedaan antara OLTP dan data warehouse. Perbedaan tersebut diantaranya

adalah :

19

Tabel 2.1 Perbedaan OLTP dengan Data Warehouse (Connolly dan

Begg, 2010, p1199)

2.1.11 Pengertian Data Mart

Menurut Kimball (2002, p396), data mart adalah bagian logikal dan

fisikal dari area cakupan yang dimiliki oleh data warehouse.

Menurut Hasnur dan Agus (2011, p99), pengertian data mart adalah

sebuah set dari teknologi dan proses yang mengizinkan orang di semua level

organisasi untuk mengakses dan menganalisa data.

Sistem OLTP Data Warehouse

Menyimpan data terkini Menyimpan data historis

Menyimpan detailed data Menyimpan detailed, lightly,

and highly summarized data

Data bersifat dinamis Data sebagian besar statis

Tingkat transaksi tinggi Tingkat transaksi rendah atau

sedang

Pola kegunaan yang dapat

diprediksi

Pola kegunaan yang tidak

dapat diprediksi

Transaction-driven Analysis-driven

Mendukung pengambilan

keputusan harian

Mendukung pengambilan

keputusan strategis

20

Menurut Claudia, Nicholas dan Jonathan (2003, p399) data mart

disesuaikan dan / atau data yang dirangkum berasal dari data warehouse dan

disesuaikan untuk mendukung analisis spesifik persyaratan unit usaha atau

fungsi bisnis. Ini memanfaatkan pandangan umum perusahaan mengenai

data strategis dan menyediakan bisnis unit dengan fleksibilitas yang lebih,

terkontrol, dan tanggung jawab. Data mart mungkin atau mungkin tidak

pada server yang sama atau lokasi sebagai gudang data.

Jadi dapat disimpulkan data mart merupakan bagian dari data

warehouse dan mengizinkan orang disemua level atau departemen

perusahaan untukk mengakses dan menganalisa datanya.

2.1.12 Aliran Informasi Data Warehouse

Menurut Connolly dan Begg (2005, p.1161 – p1165), aliran data

warehouse berfokus pada manajemen lima data flow primer, yaitu :

1. Inflow : Ekstrak, penghapusan, dan loading sumber data.

2. Upflow : Menambahkan nilai pada data di data warehouse

melalui ringkasan, packaging, dan distribusi data.

3. Downflow : Pengarsipan dan back up data di data warehouse.

4. Outflow : Membuat data tersedia untuk pengguna akhir.

5. Metaflow : Mengatur metadata.

21

Gambar 2.6 Aliran Informasi Data Warehouse (Connolly dan

Begg, 2005, p1162)

2.1.13 Arsitektur Data Warehouse

Menurut Connolly dan Begg (2010, p1203 – p1206), gambaran

arsitektur dan komponen utama dalam data warehouse adalah sebagai

berikut :

22

Gambar 2.7 Arsitektur Data Warehouse (Connolly dan Begg, 2010,

p1204)

Keterangan gambar :

1. Operational Data.

Sumber data dari data warehouse berasal dari :

a) Data operasional main frame dalam hirarki generasi pertama

dan jaringan database.

b) Data departemen dalam sistem file, seperti VSAM, RMS,

dan DBMS relasional, seperti informix dan Oracle.

23

c) Data privat yang berada di workstation dan server private

d) Sistem eksternal seperti internet, database, yang tersedia

secara komersial, atau database yang berhubungan dengan

pemasok atau pelanggan organisasi.

2. Operational Data Store.

Operational data store (ODS) adalah gudang atau tempat

penyimpanan sementara dari data operasional sekarang yang

terintegrasi dan digunakan untuk analisis. Membangun ODS dapat

membantu

3. ETL Manager.

ETL manager menampilkan semua operasi yang berkaitan dengan

ETL suatu data ke dalam data warehouse. Data dapat diekstrak

langsung dari sumber data atau secara umum dari penyimpanan data

operasional.

4. Warehouse Manager.

Warehouse Manager melakukan semua operasi yang berhubungan

dengan management data dalam Data warehouse. Operasi yang

dilakukan oleh warehouse manager adalah :

a. Analisis data untuk memastikan konsistensi.

b. Perubahan bentuk dan penggabungan data sumber dari

gudang penyimpanan sementara ke dalam table data

warehouse.

c. Membuat indeks dan mengacu pada tabel dasar.

d. Pembuatan denormalisasi.

e. Pembuatan agregasi.

24

f. Melakukan back-up dan archive/backup data.

5. Query Manager.

Query Manager menampilkan semua operasi yang berkaitan dengan

pengaturan user queries. Kompleksitas dari query manager

ditentukan dari fasilitas yang disediakan oleh end-user access tools

dan database.

6. Detailed Data.

Area warehouse ini menyimpan semua detail data dalam skema

database. Pada kebanyakan kasus, detail data tidak disimpan online,

tapi dibuat tersedia dengan mengagregasikan data ke tingkat

berikutnya. Akan tetapi, secara rutin, detail data dimasukkan ke

warehouse untuk menambah agregat data.

7. Lightly and Highly Summarized Data.

Area warehouse ini bersifat sementara karena akan berubah secara

terus menerus sebagai respon perubahan profil query. Tujuan

ringkasan informasi yaitu mempercepat kinerja query. Walaupun

ada peningkatan biaya operasional yang berhubungan dengan

ringkasan awal data, hal ini juga diimbangi dengan penghilangan

kebutuhan untuk melakukan operasi summary terus menerus (seperti

sorting atau grouping) dalam menjawab permintaan pengguna.

8. Archive / Backup Data

Area warehouse menyimpan detail dan ringkasan data untuk

pengarsipan dan back up. Walaupun ringkasan data dihasilkan dari

detail data, mungkin perlu untuk back-up ringkasan data online jika

data tersebut disimpan diluar waktu penyimpanan detail data. Data

ditransfer ke arsip penyimpanan, seperti pita magnetik atau disk

optik.

25

9. Metadata

Metadata menyimpan semua definisi metadata yang digunakan

oleh semua proses didalam warehouse. Tujuan dari metadata

tersebut adalah :

• Proses Extract dan Load

Metadata digunakan untuk memetakan sumber data ke dalam

pandangan umum data dalam data warehouse.

• Proses manajemen warehouse

metadata digunakan untuk mengotomatisasi pembuatan tabel

ringkasan.

• Sebagai proses manajemen query

metadata digunakan untuk mengarahkan suatu query dengan

sumber data yang tepat.

10. End – User Access Tools

Tujuan utama data warehouse adalah menyediakan informasi bagi

pengguna untuk pembuatan keputusan yang strategis dalam

berbisnis. Para pengguna ini berinteraksi dengan data warehouse,

ada 4 katagori end – user access tools, yaitu :

• Reporting and query tools.

• Application development tools.

• Online analytical Processing (OLAP) tools.

• Data mining tools.

26

2.1.14 Anatomi Data Warehouse

Menurut Deliana, Cahya dan Kaisariza (2009, p185), anatomi data

warehouse ada tiga jenis yaitu :

1. Data Warehouse Fungsional

Data warehouse ini dibuat berdasarkan fungsi yang berada di dalam

perusahaan. Data warehouse dibuat lebih dari satu dan

dikelompokkan berdasarkan fungsi – fungsi yang ada di dalam

perusahaan, seperti fungsi keuangan (Financial), marketing dan lain

– lain. Keuntungan membangun data warehouse fungsional ini

adalah sistem mudah dibangun dan biaya relative murah, sedangkan

kerugiannya adalah resiko dalam konsistensi data dan terbatasnya

kemampuan dalam pengumpulan data bagi pengguna.

27

Gambar 2.8 Data Warehouse Fungsional (Deliana,

Cahya, dan Kaisariza, 2009, p185)

2. Data Warehouse Terpusat (Centralized)

Data warehouse terpusat ini bentuknya menyerupai data warehouse

fungsional namun dalam data warehouse terpusat, data dikumpulkan

terlebih dahulu dalam satu tempat terpusat setelah itu data – data

tersebut dipisahkan berdasarkan fungsi – fungsi yang dibutuhkan

oleh perusahaan. Keuntungan memakai data warehouse terpusat

adalah tingkat konsistensi data yang tinggi karena data yang ada di

dalamnya benar – benar terpadu, sedangkan kerugiannya yaitu biaya

mahal serta memerlukan waktu yang cukup lama untuk

membangunnya.

28

Gambar 2.9 Data Warehouse Terpusat(centralized)

( Deliana, Cahya, dan Kaisariza, 2009, p186)

3. Data Warehouse Terdistribusi (Distributed)

Distributed data warehouse merupakan gateway yang berfungsi

sebagai jembatan atau penghubung antara source (lokasi data dari

data warehouse) dengan workstation yang menggunakan sistem

yang beraneka ragam dan berbeda, sehingga memungkinkan bagi

pengguna untuk dapat mengakses sumber data yang beradadiluar

lokasi perusahaan. Keuntungan distributed data warehouse ini

adalah memungkinkan adanya pengaksesan data dari luar

perusahaan. Sedangkan kerugiannya adalah harga serta sistem

pembuatan data dari data warehouse bentuk ini yang paling mahal

serta paling kompleks apabila dibandingkan dengan bentuk – bentuk

data warehouse yang lainnya.

29

Gambar 2.10 Data Warehouse Dsitributed (Deliana, Cahya

dan Kaisariza, 2009, p187)

2.1.15 Konsep Pemodelan Data Warehouse

Menurut Connolly dan Begg (2010, p1227) dalam pemodelan data

warehouse, digunakan teknik pemodelan dimensional. Dengan teknik

tersebut, maka dapat dibuat tabel fakta, tabel dimensi, dan membangun relasi

antar masing – masing tabel dimensi dan tabel fakta.

2.1.15.1 Dimensionality Modelling (Model Dimesional)

Menurut Connolly dan Begg (2010, p1227), dimesionality

modelling ialah sebuah teknik logical design yang bertujuan untuk

menyajikan data dalam bentuk yang standar dan intuitif yang

memungkinkan pengaksesan database dengan performance yang tinggi.

1. Fact Table

Menurut Kimball dan Ross (2002,p402), Fact table atau tabel

fakta merupakan tabel central dengan pengukuran performasi

bisnis dalam bentuk numeric yang memilki karakteristik berupa

30

sebuah composite key, yang tiap – tiap elemennya adalah

foreign key yang didapat dari tabel dimensi. Lalu menurut

Connolly dan Begg (2010, p1227), fact table merupakan setiap

model dimensional yang terdiri dari satu table dengan sebuah

composite primary key.

2. Dimensional Table

Menurut Kimball dan Ross (2002, p399), dimensional tabel

adalah sebuah tabel pada model dimensional yang memiliki

sebuah primary key tunggal dan kolom dengan atribut

deskriptif. Sedangkan menurut Connolly dan Begg (2010,

p1227), dimensional table ialah satu set dari table kecil. Setiap

dimensional table memiliki primary key sederhana yang sesuai

persis dengan salah satu komponen composite key dalam tabel

fakta.

3. Star Schema

Menurut Connolly dan Begg (2010, p1227), Star schema

merupakan sebuah dimesional data model yang memiliki tabel

fakta di tengah, dan dikelilingi oleh tabel dimensi

denormalisasi. Star schema / star join mengeksploitasi

karakteristik data faktual sehingga fakta-fakta yang dihasilkan

oleh peristiwa yang terjadi di masa lalu, dan tidak mungkin

berubah, terlepas dari bagaimana mereka dianalisis.

31

Gambar 2.11 Star Schema (Connolly & Begg, 2010, p1227)

4. Snowflake Schema

Menurut Connolly dan Begg (2010, p1229), snowflake schema

adalah variasi bentuk dari skema bintang dimana pada tabel

dimensi tidak mengandung data yang telah di-denormalisasi.

5. Starflake Schema

Menurut Connolly dan Begg (2010, p1230), starflake schema

merupakan struktur hybrid yang berisi kombinasi antara skema

bintang yang telah didenormalisasi dan snowflake yang telah

dinormalisasi. Beberapa dimensi dapat menggunakan bentuk

tertentu untuk memenuhi berbagai kebutuhan query.

32

2.1.16 Extract Transform Load (ETL)

Menurut Turban (2011, p67), ETL merupakan salah satu proses yang

penting dalam data warehouse. Tujuan dari ETL adalah untuk melengkapi

data warehouse dengan data yang telah disaring dan diolah. Data yang

digunakan dalam proses ETL adalah dapat berasal dari berbagai sumber,

contohnya ERP application, data Excel atau kumpulan pesan. ETL terdiri

dari 3 proses, yaitu :

1. Extraction

Langkah pertama pada proses ETL adalah mengekstrak data dari

sumber-sumber data. Kebanyakan proyek pada data warehouse

menggabungkan data dari sumber-sumber yang berbeda. Sistem yang

terpisah-pisah ini mungkin saja menggunakan format data yang

berbeda sehingga perlu dilakukan ekstraksi. Ekstrasi adalah

mengubah data ke dalam suatu format yang berguna untuk proses

transformasi.

2. Transformation

Mengubah data menggunakan serangkaian aturan atau fungsi untuk

mengekstrak data menjadi bentuk yang diperlukan, sehingga data

tersebut dapat diproses dalam data warehouse. Berikut adalah hal-hal

yang dilakukan dalam tahap transformasi :

• Hanya memilih kolom tertentu saja untuk memasukkan ke

dalam data warehouse.

• Menterjemahkan nilai-nilai yang berupa kode.

• Mengkodekan nilai-nilai ke dalam bentuk bebas (contoh :

memetakan “pria” kedalam “p”).

• Melakukan perhitungan nilai-nilai baru (contoh : nilai-

qty*harga).

33

• Menggabungkan data dari berbagai sumber.

• Membuat ringkasan dari kumpulan data.

• Menentukan nilai surrogate key.

• Transposing atau pivoting (mengubah sekumpulan kolom

menjadi sekumpulan baris atau sebaliknya).

• Memisahkan sebuah kolom menjadi beberapa kolom.

• Menggunakan berbagai bentuk validasi data baik yang

sederhana maupun kompleks.

3. Load

Load adalah fase dimana data dimasukkan ke dalam data warehouse.

Jangka waktu proses ini tergantung pada kebutuhan perusahaan.

Misalnya dalam satu bagian, menentukan waktu setiap minggu untuk

memindahkan data operasional ke dalam data warehouse, sedangkan

bagian lainnya bisa saja menentukan waktu setiap jam untuk

memasukkan data ke dalam data warehose. Waktu dan jangkauan

untuk mengganti atau menambah data tergantung dari perancangan

data warehouse pada waktu menganalisis kebutuhan informasinya.

2.1.17 Metodologi Perancangan Data Warehouse

Berdasarkan pernyataan Kimball dan Ross di Connoly dan Begg (2005,

p1187), terdapat sembilan tahapan dalam membangun sebuah Data

Warehouse yang dikenal dengan nine-step methodology, yaitu sebagai

berikut:

1. Memilih Proses (Choosing the Process)

Proses (fungsi) bisnis merujuk pada subjek masalah atau kebutuhan

bisnis dan pemahaman mengenai data yang tersedia pada perusahaan.

34

Data Warehouse yang nantinya akan dibangun harus sesuai dengan

anggaran dan dapat menjawab masalah-masalah bisnis yang penting.

2. Memilih Grain (Choosing the Grain)

Memilih Grain yaitu menentukan hal yang sebenarnya dihadirkan

oleh tabel fakta. Setelah menentukan grain-grain pada tabel fakta,

dimensi-dimensi untuk setiap fakta diidentifikasi. Pada proses ini

juga tingkat granularity dari data akan ditentukan.

3. Identifikasi dan membuat dimensi yang sesuai ( Identifying and

Conforming the dimensions)

Mengidentifikasi dimensi disertai deskripsi detail yang secukupnya.

Ketika tabel dimensi berada pada dua atau lebih Data Warehouse,

maka tabel dimensi tersebut harus mempunyai dimensi yang sama

atau salah satu merupakan subset dari yang lainnya. Jika suatu tabel

dimensi digunakan oleh lebih dari satu Data Warehouse, maka

dimensinya harus disesuaikan.

4. Memilih Fakta (Choosing the Facts)

Memilih fakta yang akan digunakan dalam tabel fakta berdasarkan

proses bisnis dan Grain yang telah ditentukan. Untuk memilih fakta

perlu mengetahui informasi apa saja yang dibutuhkan oleh pengguna

dalam kaitannya dengan proses bisnis tertentu.

5. Menentukan data per-kalkulasi dari tabel Fakta (Storing pre-

calculation in the Fact table)

Setelah kita menentukan fakta, maka setiap fakta perlu diuji apakah

fakta lain yang merupakan hasil kalkulasi dari fakta-fakta yang telah

ditentukan. Fakta hasil kalkulasi sebaiknya disimpan didalam tabel

fakta, karena fakta ini akan dapat meningkatkan performasi dalam

35

memberikan hasil query. Disamping itu juga perlu diketahui bahwa

dengan menyimpan fakta hasil kalkulasi dalam tabel fakta berarti ada

tambahan penggunaan kapasitas dalam basis data.

6. Melengkapi tabel dimensi (Rounding out the Dimensions tables)

Pada tahap ini, hal yang dilakukan adalah menambahkan informasi

deskriptif yang berhubungan dengan setiap tabel dimensi yang ada.

Disamping itu, untuk melengkapi atribut tabel dimensi dengan cepat

maka perlu dilakukan identifikasi mengenai bagaimana tabel-tabel

dimensi saling berhubungan.

7. Memilih durasi dari basis data (Choosing the duration of the

database)

Menentukan durasi data yang akan dimasukkan kedalam Data

Warehouse berdasarkan kebutuhan perusahaan. Hal ini perlu

dilakukan supaya data yang akan dianalisis berdasarkan jangka waktu

tertentu berada dalam Data Warehouse.

8. Melacak dimensi yang berubah secara perlahan (Tracking slowly

changing dimension)

Slowly changing dimension dapat menjadi sebuah masalah. Ada tiga

tipe dasar slowly changing dimension, yaitu :

• Atribut dimensi yang berubah akan terhapus dan terisi nilai

atribut baru.

• Atribut yang berubah akan tetap tersimpan dan akan

dimasukkan suatu record baru dengan atribut yang sudah

berubah.

• Atribut dimensi yang telah berubah menimbulkan alternatif

sehingga nilai atribut lama dan baru dapat diakses dalam

sebuah dimensi yang sama.

36

9. Menentukan prioritas dan mode query (Deciding the query

priorities and the query modes)

Pada tahap ini kita mempertimbangakan perancangan fisik. Ini

merupakan salah satu salah satu tahap penting untuk membentuk

suatu tabel fakta secara fisik dan memunculkan summarized dan

aggregation.

2.2 Teori Khusus

2.2.1 Pengertian Pembelian

Menurut Soemarso S.R (1994), kegiatan pembelian dalam perusahaan dagang

adalah membeli barang dagang secara tunai atau kredit, membeli aktiva produksi untuk

digunakan dalam kegiatan perusahaan atau membeli barang dan jasa lain sehubungan

dengan kegiatan perusahaan.Sehingga dapat diperoleh kesimpulan bahwa pembelian

merupakan perkiraan yang digunakan untuk mencatat semua pembelian barang dagang

dalam satu periode tertentu.

2.2.2 Pengertian Penjualan

Menurut Kotler dan Amstrong (2006:457), penjualan merupakan sebuah proses

dimana kebutuhan pembeli dan kebutuhan penjualan dipenuhi, melalui antar pertukaran

informasi dan kepentingan. Jadi konsep penjualan adalah cara untuk mempengaruhi

konsumen untuk membeli produk yang ditawarkan. Dalam kenyataannya penjualan

mempunyai dua sistem yang biasa diterapkan oleh suatu perusahaan dagang yaitu

penjualan yang dilakukan dengan cara tunai dan penjualan yang dilakukan secara kredit

atau sering disebut cara angsuran.

bab 2 landasan teori data warehouse ,maka pada sub bab...

Documents