bab 2 landasan teori data warehouse ,maka pada sub bab...
TRANSCRIPT
7
BAB 2
LANDASAN TEORI
2.1 Teori Dasar/Umum
Agar dapat melakukan analisis dan perancangan data warehouse,maka pada sub bab
ini akan menjelaskan beberapa konsep dasar data warehouse yang dijadikan acuan dan
landasan. Konsep – konsep tersebut merupakan teori – teori yang berhubungan dengan
perancangan data warehouse.
2.1.1 Database
Menurut Connolly dan Begg (2005, p15), database merupakan sebuah
koleksi berbagai data logis yang saling terkait, dan merupakan deskripsi dari
data, yang dirancang untuk memenuhi kebutuhan informasi dari suatu
organisasi.
Dan menurut Rainer dan Turban (2009, p412), database merupakan
sekelompok file logis yang memiliki keterkaitan menyimpan data dan asosiasi
di antara mereka.
Jadi, database adalah kumpulan data yang saling berhubungan dan
disimpan dalam suatu format tertentu dan dirancang untuk menyediakan
kebutuhan informasi dalam organisasi.
2.1.2 Pengertian Online Transaction Processing (OLTP)
Menurut Kimball (2002, p408), OLTP adalah gambaran pasti dari segala
aktifitas dan asosiasi sistem dengan menginput data yang dapat dipercaya ke
dalam database. OLTP menggambarkan sebuah kebutuhan sistem dalam
8
ruang lingkup operasional dan merupakan proses yang dapat mendukung
kegiatan bisnis sehari – hari.
Menurut Connolly dan Begg (2010, p1199), OLTP adalah sebuah
sistem yang telah dirancang untuk menangani pemrosesan transaksi tingkat
tinggi, dengan transaksi yang secara umum membuat perubahan kecil pada
data operasional organisasi, yang dibutuhkan oleh organisasi untuk menangani
operasi sehari – hari.
Menurut Erick dan Tri (2010, p82) , pengertian OLTP adalah suatu
pemrosesan yang menyimpan data mengenai kegiatan operasional transaksi
dalam perusahaan sehari – hari.
Jadi dapat disimpulkan bahwa OLTP merupakan sebuah sistem
pemrosesan data yang menyimpan transaksi data operasional dalam
perusahaan.
2.1.3 Pengertian Online Analytical Processing (OLAP)
Menurut Kimball dan Ross (2002, p408), OLAP merupakan kumpulan
aturan yang menyediakan sebuah kerangka dimensional untuk mendukung
keputusan.
Menurut Rainer dan Turban (2009, p417), OLAP ialah analisis data
yang dikumpulkan atau diakumulasikan oleh pengguna akhir atau end user.
Menurut Claudia, Nicholas dan Jonathan (2003, p404), OLAP
merupakan istilah yang diciptakan oleh EF Codd yang mengacu pada software
yang memungkinkan interaktif analisis data melalui antarmuka manusia-
komputer. Hal ini umumnya digunakan untuk label kategori teknologi
perangkat lunak yang memungkinkan analis, manajer, dan eksekutif untuk
melakukan akses data ad hoc dan analisis berdasarkan dimensinya. Bentuk
analisis multidimensi menyediakan wawasan bisnis melalui akses yang
9
konsisten dan cepat, interaktif untuk berbagai kemungkinan pandangan
informasi. Namun, istilah itu sendiri tidak menyiratkan penggunaan analisis
multidimensi atau struktur.
Jadi, OLAP merupakan suatu pemrosesan data yang berfungsi
menganalisis data transaksi bisnis yang disimpan dalam data warehouse untuk
membuat keputusan bisnis yang strategis.
2.1.4 Pengertian Entity Relationship (ER) Modeling
Menurut Connolly dan Begg (2010, p371), Entity Relationship
Modelling merupakan pendekatan top – down untuk mendesain database yang
diawali dengan mengidentifikasikan data penting yang disebut dengan entities
dan relationships diantara data – data yang harus direpresentasikan dalam
model.
Menurut Rainer dan Turban (2009, p413), Entity Relationship
Modelling adalah proses perancangan database dengan mengorganisir entitas
data yang akan digunakan dan mengidentifikasi hubungan di antara mereka.
Jadi dapat disimpulkan ER-Modeling merupakan proses peerancangan
database yang mengidentifikasikan entitas dan relationship diantara data –
data dan direpresentasikan dalam model.
2.1.5 Pengertian Entity Relationship Diagram (ERD)
Menurut Doro dan Stevalin (2009, p71), pengertian ERD ialah
merupakan suatu metode pemodelan data yang menggambarkan entitas –
entitas yang ada pada suatu database dan relasi atau hubungan dari masing –
masing entitas tersebut.
Menurut Connolly dan Begg (2010, p330), ERD digunakan untuk
menggambarkan struktur logical database dalam bentuk diagram. ERD
10
menyediakan cara yang sederhana dan mudah untuk memahami berbagai
komponen dalam desain database.
Dapat disimpulkan bahwa ERD adalah sebuah pemodelan data yang
menggambarkan relasi atau hubungan antara entitas yang satu dengan entitas
lainnya.
2.1.6 Pengertian Data Warehouse
Menurut Rainer dan Turban (2009, p412), Data warehouse adalah suatu
tempat penyimpanan data histori yang berorientasi objek, yang telah diatur
agar dapat diakses dan diterima untuk aktivitas proses analisa.
Menurut Kimball dan Ross (2002, p397), Data warehouse adalah
perpaduan dari data perusahaan atau organisasi, baik dari staging area
maupun area presentasi, dimana data operasional terlihat secara spesifik,
terstruktur untuk query dan analisis performansi sehingga memudahkan
penggunaan.
Menurut Connolly dan Beg (2010, p1197), Data warehouse adalah
sekumpulan data yang berorientasi subjek, terintegrasi, memiliki varian
waktu, dan tidak berubah yang dapat mendukung fungsi dari decision support
system (DSS), dimana setiap unit data relevan untuk beberapa saat dalam
suatu waktu. Data warehouse berisikan data atomik dan ringkasan data.
Jadi, Data Warehouse merupakan kumpulan data yang berorientasi
subjek, terintegrasi datanya, tidak berubah dan memiliki varian waktu yang
berfungsi untuk pengambilan keputusan strategi bisnis.
2.1.7 Karakteristik Data Warehouse
Menurut Inmon (2005, p30) data warehouse mempunyai 4 karakteristik
yang utama, antara lain sebagai berikut :
11
1. Subject-oriented
Subject-oriented maksudnya yaitu data diorganisir
berdasarkan subjek utama dalam lingkungan perusahaan, bukan
berorientasi pada proses atau fungsi aplikasi seperti pada lingkungan
operasional. Misalnya suatu perusahaan otomotif yang membuat
suatu data warehouse yang memiliki subjek utama seperti produk,
penjualan, dan pelanggan.
Gambar 2.1 Subject – Oriented (Inmon, 2005, p30)
2. Integrated
Integrated yaitu data warehouse dapat menyimpan data
sebagai unit tunggal, bukan sebagai kumpulan file-file yang mungkin
mempunyai struktur atau pengaturan yang berbeda yang didapat dari
berbagai sumber yang terpisah. Saat data tersebut diambil, data
diubah, dibentuk ulang, diringkas, dirangkai ulang dan seterusnya.
Hasilnya, ketika telah berada dalam suatu data warehouse, data
memiliki gambaran atau struktur fisik terpadu yang tunggal.
12
Gambar 2.2 Contoh Integrasi Data (Inmon, 2005, p31)
3. Non-volatile
Non-volatile artinya data dalam data warehouse tidak
diperbaharui secara real-time, tetapi diambil dari sistem operasional
secara berkala. Data baru ditambahkan ke database sebagai
pelengkap bukan pengganti, sehingga data histori tetap tersimpan di
dalam database.
13
Gambar 2.3 Non Volatile (Inmon, 2005, p32)
4. Time variant
Time variant artinya setiap unit atau bagian data dalam data
warehouse bersifat akurat atau valid pada rentang waktu tertentu.
Record yang ada dalam data warehouse selalu mempunyai sebuah
bentuk penandaaan waktu yang dapat menunjukan saat dimana
record tersebut masih akurat baik dalam bentuk timestamp untuk
sebuah record tunggal atau time stamp untuk seluruh database.
Gambar 2.4 Time Variant (Inmon, 2005, p32)
14
2.1.8 Struktur Data Warehouse
Menurut Inmon (2005, p33), struktur data warehouse memiliki
beberapa tingkatan detail yang berbeda di dalam data warehouse, yaitu older
level of detail (biasanya pada alternatif, penyimpanan jumlah besar), current
level of detail, lightly summarized data, dan highly summarized data.
Komponen dari struktur data warehouse tersebut dijelaskan sebagai berikut :
1. Current Detail Data
Current detail data merupakan data detail aktif yang
mencerminkan keadaan yang sedang berjalan saat ini dan merupakan
tingkat terendah dalam data warehouse serta biasanya memerlukan
media penyimpanan yang cukup besar karena datanya berukuran
sangat besar yang menyimpan semua informasi dan data yang ada
dalam perusahaan. Alasan yang menyebabkan current detail data
selalu menjadi perhatian utama yaitu :
a) Jumlah data sangat banyak dan disimpan pada tingkat
penyimpanan terendah.
b) Menggambarkan kejadian yang sedang berlangsung dalam
perusahaan dan selalu menjadi perhatian utama.
c) Dapat digunakan dalam merekapitulasi data sehingga
current detail data haruslah akurat.
d) Umumnya selalu disimpan dalam media penyimpanan agar
cepat diakses tetapi membutuhkan biaya yang mahal dan
pengaturannya yang kompleks.
15
2. Old Detail Data
Merupakan data histori perusahaan yang merupakan hasil
backup yang dapat tersimpan dalam media penyimpanan yang
terpisah dan dapat diakses kembali pada saat tertentu. Karena bersifat
backup, maka biasanya data disimpan dalam storage alternatif seperti
tape disk. Data ini biasanya memiliki frekuensi akses yang rendah.
3. Lightly Summarized Data
Lightly summarized data merupakan ringkasan dari current
detail data. Di dalam tahap ini data belum dapat digunakan untuk
pengambilan keputusan karena data masih belum bersifat total
summary dan masih bersifat detail dan biasanya disimpan pada
media penyimpanan seperti disk.
Data ini dirangkum berdasarkan periode yang sesuai dengan
kebutuhan dan tingkatan. Data ini disebut juga dengan data mart.
Akses terhadap data jenis ini banyak digunakan untuk melihat suatu
kondisi yang sedang atau sudah berjalan.
4. Highly Summarized Data
Highly summarized data merupakan tingkat lanjutan dari
lightly summarized data dan merupakan hasil proses summary yang
sudah bersifat total summary. Pada tingkat ini data sangat mudah
diakses dan pada akhirnya dapat digunakan sebagai pengambil
keputusan bagi para eksekutif perusahaan. Hal ini sangatlah
memudahkan para eksekutif karena mereka tidak perlu lagi membaca
atau melakukan analisis dalam waktu yang lama.
16
5. Metadata
Metadata memuat informasi yang penting dalam data
warehouse dan bukan merupakan hasil dari kegiatan operasional
seperti keempat jenis diatas. Metadata digunakan dalam banyak
fungsi, antara lain :
a) Sebagai direktori yang dipakai oleh user dalam mencari
lokasi data dalam data warehouse.
b) Sebagai panduan pemetaan dalam proses transformasi dari
data operasional ke dalam lingkungan data warehouse.
c) Sebagai panduan untuk proses detail data menjadi
summary data untuk diolah menjadi lightly summarized
data dan kemudian menjadi highly summarized data.
Menurut Connolly dan Begg (2010, p1206), metadata
digunakan untuk berbagai tujuan, yaitu :
1. Proses ekstraksi dan loading.
Metadata digunakan untuk memetakan sumber data ke
dalam pandangan umum dari data dalam warehouse.
2. Proses manajemen warehouse.
Metadata digunakan untuk mengotomatiskan pembuatan
tabel ringkasan.
3. Sebagai bagian dari proses manajemen query.
Metadata digunakan untuk menghubungkan suatu query
dengan sumber data yang tepat.
17
Gambar 2.5 Struktur Data Warehouse (Inmon, 2005, p34)
2.1.9 Keuntungan Data Warehouse
Menurut Connolly dan Begg (2010, p1198), data warehouse yang telah
diimplementasikan dengan sukses dapat memberikan keuntungan bagi
organisasi, keuntungan – keuntungan tersebut adalah :
1. Tingkat pengembalian investasi yang tinggi.
Sebuah organisasi menangani sumber daya dalam jumlah
besar untuk memastikan implementasi data warehouse yang berhasil
dan biayanya bisa sangat bervariasi. Berdasarkan penelitian dari
International Data Corporation (IDC), rata – rata tingkat
pengembalian investasi data warehouse dalam 3 tahun mencapai
401% pada tahun 1996.
18
2. Keuntungan kompetitif.
Pengembalian dari investasi yang tinggi bagi perusahaan yang
mengimplementasikan data warehouse dengan berhasil akan
memberikan mereka keuntungan kompetitif. Keuntungan tersebut
didapat dengan mengizinkan pembuat keputusan mengakses data
yang sebelumnya tidak tersedia, tidak diketahui dan informasi yang
belum dimanfaatkan, contohnya seperti tren dan permintaan.
3. Meningkatkan produktivitas para pembuat keputusan
perusahaan.
Data warehouse meningkatkan produktivitas dari pembuat
keputusan perusahaan dengan menciptakan database yang
terintegrasi, konsistensi, berorientasi subjek dan data historis.
Contohnya seperti : dengan merubah data menjadi informasi yang
berarti, data warehouse memungkinkan manajer untuk melakukan
analisis dengan lebih akurat dan konsisten.
2.1.10 Perbandingan OLTP dan Data Warehouse
Menurut Connlly dan Begg (2010, p1199), secara umum terdapat
perbedaan antara OLTP dan data warehouse. Perbedaan tersebut diantaranya
adalah :
19
Tabel 2.1 Perbedaan OLTP dengan Data Warehouse (Connolly dan
Begg, 2010, p1199)
2.1.11 Pengertian Data Mart
Menurut Kimball (2002, p396), data mart adalah bagian logikal dan
fisikal dari area cakupan yang dimiliki oleh data warehouse.
Menurut Hasnur dan Agus (2011, p99), pengertian data mart adalah
sebuah set dari teknologi dan proses yang mengizinkan orang di semua level
organisasi untuk mengakses dan menganalisa data.
Sistem OLTP Data Warehouse
Menyimpan data terkini Menyimpan data historis
Menyimpan detailed data Menyimpan detailed, lightly,
and highly summarized data
Data bersifat dinamis Data sebagian besar statis
Tingkat transaksi tinggi Tingkat transaksi rendah atau
sedang
Pola kegunaan yang dapat
diprediksi
Pola kegunaan yang tidak
dapat diprediksi
Transaction-driven Analysis-driven
Mendukung pengambilan
keputusan harian
Mendukung pengambilan
keputusan strategis
20
Menurut Claudia, Nicholas dan Jonathan (2003, p399) data mart
disesuaikan dan / atau data yang dirangkum berasal dari data warehouse dan
disesuaikan untuk mendukung analisis spesifik persyaratan unit usaha atau
fungsi bisnis. Ini memanfaatkan pandangan umum perusahaan mengenai
data strategis dan menyediakan bisnis unit dengan fleksibilitas yang lebih,
terkontrol, dan tanggung jawab. Data mart mungkin atau mungkin tidak
pada server yang sama atau lokasi sebagai gudang data.
Jadi dapat disimpulkan data mart merupakan bagian dari data
warehouse dan mengizinkan orang disemua level atau departemen
perusahaan untukk mengakses dan menganalisa datanya.
2.1.12 Aliran Informasi Data Warehouse
Menurut Connolly dan Begg (2005, p.1161 – p1165), aliran data
warehouse berfokus pada manajemen lima data flow primer, yaitu :
1. Inflow : Ekstrak, penghapusan, dan loading sumber data.
2. Upflow : Menambahkan nilai pada data di data warehouse
melalui ringkasan, packaging, dan distribusi data.
3. Downflow : Pengarsipan dan back up data di data warehouse.
4. Outflow : Membuat data tersedia untuk pengguna akhir.
5. Metaflow : Mengatur metadata.
21
Gambar 2.6 Aliran Informasi Data Warehouse (Connolly dan
Begg, 2005, p1162)
2.1.13 Arsitektur Data Warehouse
Menurut Connolly dan Begg (2010, p1203 – p1206), gambaran
arsitektur dan komponen utama dalam data warehouse adalah sebagai
berikut :
22
Gambar 2.7 Arsitektur Data Warehouse (Connolly dan Begg, 2010,
p1204)
Keterangan gambar :
1. Operational Data.
Sumber data dari data warehouse berasal dari :
a) Data operasional main frame dalam hirarki generasi pertama
dan jaringan database.
b) Data departemen dalam sistem file, seperti VSAM, RMS,
dan DBMS relasional, seperti informix dan Oracle.
23
c) Data privat yang berada di workstation dan server private
d) Sistem eksternal seperti internet, database, yang tersedia
secara komersial, atau database yang berhubungan dengan
pemasok atau pelanggan organisasi.
2. Operational Data Store.
Operational data store (ODS) adalah gudang atau tempat
penyimpanan sementara dari data operasional sekarang yang
terintegrasi dan digunakan untuk analisis. Membangun ODS dapat
membantu
3. ETL Manager.
ETL manager menampilkan semua operasi yang berkaitan dengan
ETL suatu data ke dalam data warehouse. Data dapat diekstrak
langsung dari sumber data atau secara umum dari penyimpanan data
operasional.
4. Warehouse Manager.
Warehouse Manager melakukan semua operasi yang berhubungan
dengan management data dalam Data warehouse. Operasi yang
dilakukan oleh warehouse manager adalah :
a. Analisis data untuk memastikan konsistensi.
b. Perubahan bentuk dan penggabungan data sumber dari
gudang penyimpanan sementara ke dalam table data
warehouse.
c. Membuat indeks dan mengacu pada tabel dasar.
d. Pembuatan denormalisasi.
e. Pembuatan agregasi.
24
f. Melakukan back-up dan archive/backup data.
5. Query Manager.
Query Manager menampilkan semua operasi yang berkaitan dengan
pengaturan user queries. Kompleksitas dari query manager
ditentukan dari fasilitas yang disediakan oleh end-user access tools
dan database.
6. Detailed Data.
Area warehouse ini menyimpan semua detail data dalam skema
database. Pada kebanyakan kasus, detail data tidak disimpan online,
tapi dibuat tersedia dengan mengagregasikan data ke tingkat
berikutnya. Akan tetapi, secara rutin, detail data dimasukkan ke
warehouse untuk menambah agregat data.
7. Lightly and Highly Summarized Data.
Area warehouse ini bersifat sementara karena akan berubah secara
terus menerus sebagai respon perubahan profil query. Tujuan
ringkasan informasi yaitu mempercepat kinerja query. Walaupun
ada peningkatan biaya operasional yang berhubungan dengan
ringkasan awal data, hal ini juga diimbangi dengan penghilangan
kebutuhan untuk melakukan operasi summary terus menerus (seperti
sorting atau grouping) dalam menjawab permintaan pengguna.
8. Archive / Backup Data
Area warehouse menyimpan detail dan ringkasan data untuk
pengarsipan dan back up. Walaupun ringkasan data dihasilkan dari
detail data, mungkin perlu untuk back-up ringkasan data online jika
data tersebut disimpan diluar waktu penyimpanan detail data. Data
ditransfer ke arsip penyimpanan, seperti pita magnetik atau disk
optik.
25
9. Metadata
Metadata menyimpan semua definisi metadata yang digunakan
oleh semua proses didalam warehouse. Tujuan dari metadata
tersebut adalah :
• Proses Extract dan Load
Metadata digunakan untuk memetakan sumber data ke dalam
pandangan umum data dalam data warehouse.
• Proses manajemen warehouse
metadata digunakan untuk mengotomatisasi pembuatan tabel
ringkasan.
• Sebagai proses manajemen query
metadata digunakan untuk mengarahkan suatu query dengan
sumber data yang tepat.
10. End – User Access Tools
Tujuan utama data warehouse adalah menyediakan informasi bagi
pengguna untuk pembuatan keputusan yang strategis dalam
berbisnis. Para pengguna ini berinteraksi dengan data warehouse,
ada 4 katagori end – user access tools, yaitu :
• Reporting and query tools.
• Application development tools.
• Online analytical Processing (OLAP) tools.
• Data mining tools.
26
2.1.14 Anatomi Data Warehouse
Menurut Deliana, Cahya dan Kaisariza (2009, p185), anatomi data
warehouse ada tiga jenis yaitu :
1. Data Warehouse Fungsional
Data warehouse ini dibuat berdasarkan fungsi yang berada di dalam
perusahaan. Data warehouse dibuat lebih dari satu dan
dikelompokkan berdasarkan fungsi – fungsi yang ada di dalam
perusahaan, seperti fungsi keuangan (Financial), marketing dan lain
– lain. Keuntungan membangun data warehouse fungsional ini
adalah sistem mudah dibangun dan biaya relative murah, sedangkan
kerugiannya adalah resiko dalam konsistensi data dan terbatasnya
kemampuan dalam pengumpulan data bagi pengguna.
27
Gambar 2.8 Data Warehouse Fungsional (Deliana,
Cahya, dan Kaisariza, 2009, p185)
2. Data Warehouse Terpusat (Centralized)
Data warehouse terpusat ini bentuknya menyerupai data warehouse
fungsional namun dalam data warehouse terpusat, data dikumpulkan
terlebih dahulu dalam satu tempat terpusat setelah itu data – data
tersebut dipisahkan berdasarkan fungsi – fungsi yang dibutuhkan
oleh perusahaan. Keuntungan memakai data warehouse terpusat
adalah tingkat konsistensi data yang tinggi karena data yang ada di
dalamnya benar – benar terpadu, sedangkan kerugiannya yaitu biaya
mahal serta memerlukan waktu yang cukup lama untuk
membangunnya.
28
Gambar 2.9 Data Warehouse Terpusat(centralized)
( Deliana, Cahya, dan Kaisariza, 2009, p186)
3. Data Warehouse Terdistribusi (Distributed)
Distributed data warehouse merupakan gateway yang berfungsi
sebagai jembatan atau penghubung antara source (lokasi data dari
data warehouse) dengan workstation yang menggunakan sistem
yang beraneka ragam dan berbeda, sehingga memungkinkan bagi
pengguna untuk dapat mengakses sumber data yang beradadiluar
lokasi perusahaan. Keuntungan distributed data warehouse ini
adalah memungkinkan adanya pengaksesan data dari luar
perusahaan. Sedangkan kerugiannya adalah harga serta sistem
pembuatan data dari data warehouse bentuk ini yang paling mahal
serta paling kompleks apabila dibandingkan dengan bentuk – bentuk
data warehouse yang lainnya.
29
Gambar 2.10 Data Warehouse Dsitributed (Deliana, Cahya
dan Kaisariza, 2009, p187)
2.1.15 Konsep Pemodelan Data Warehouse
Menurut Connolly dan Begg (2010, p1227) dalam pemodelan data
warehouse, digunakan teknik pemodelan dimensional. Dengan teknik
tersebut, maka dapat dibuat tabel fakta, tabel dimensi, dan membangun relasi
antar masing – masing tabel dimensi dan tabel fakta.
2.1.15.1 Dimensionality Modelling (Model Dimesional)
Menurut Connolly dan Begg (2010, p1227), dimesionality
modelling ialah sebuah teknik logical design yang bertujuan untuk
menyajikan data dalam bentuk yang standar dan intuitif yang
memungkinkan pengaksesan database dengan performance yang tinggi.
1. Fact Table
Menurut Kimball dan Ross (2002,p402), Fact table atau tabel
fakta merupakan tabel central dengan pengukuran performasi
bisnis dalam bentuk numeric yang memilki karakteristik berupa
30
sebuah composite key, yang tiap – tiap elemennya adalah
foreign key yang didapat dari tabel dimensi. Lalu menurut
Connolly dan Begg (2010, p1227), fact table merupakan setiap
model dimensional yang terdiri dari satu table dengan sebuah
composite primary key.
2. Dimensional Table
Menurut Kimball dan Ross (2002, p399), dimensional tabel
adalah sebuah tabel pada model dimensional yang memiliki
sebuah primary key tunggal dan kolom dengan atribut
deskriptif. Sedangkan menurut Connolly dan Begg (2010,
p1227), dimensional table ialah satu set dari table kecil. Setiap
dimensional table memiliki primary key sederhana yang sesuai
persis dengan salah satu komponen composite key dalam tabel
fakta.
3. Star Schema
Menurut Connolly dan Begg (2010, p1227), Star schema
merupakan sebuah dimesional data model yang memiliki tabel
fakta di tengah, dan dikelilingi oleh tabel dimensi
denormalisasi. Star schema / star join mengeksploitasi
karakteristik data faktual sehingga fakta-fakta yang dihasilkan
oleh peristiwa yang terjadi di masa lalu, dan tidak mungkin
berubah, terlepas dari bagaimana mereka dianalisis.
31
Gambar 2.11 Star Schema (Connolly & Begg, 2010, p1227)
4. Snowflake Schema
Menurut Connolly dan Begg (2010, p1229), snowflake schema
adalah variasi bentuk dari skema bintang dimana pada tabel
dimensi tidak mengandung data yang telah di-denormalisasi.
5. Starflake Schema
Menurut Connolly dan Begg (2010, p1230), starflake schema
merupakan struktur hybrid yang berisi kombinasi antara skema
bintang yang telah didenormalisasi dan snowflake yang telah
dinormalisasi. Beberapa dimensi dapat menggunakan bentuk
tertentu untuk memenuhi berbagai kebutuhan query.
32
2.1.16 Extract Transform Load (ETL)
Menurut Turban (2011, p67), ETL merupakan salah satu proses yang
penting dalam data warehouse. Tujuan dari ETL adalah untuk melengkapi
data warehouse dengan data yang telah disaring dan diolah. Data yang
digunakan dalam proses ETL adalah dapat berasal dari berbagai sumber,
contohnya ERP application, data Excel atau kumpulan pesan. ETL terdiri
dari 3 proses, yaitu :
1. Extraction
Langkah pertama pada proses ETL adalah mengekstrak data dari
sumber-sumber data. Kebanyakan proyek pada data warehouse
menggabungkan data dari sumber-sumber yang berbeda. Sistem yang
terpisah-pisah ini mungkin saja menggunakan format data yang
berbeda sehingga perlu dilakukan ekstraksi. Ekstrasi adalah
mengubah data ke dalam suatu format yang berguna untuk proses
transformasi.
2. Transformation
Mengubah data menggunakan serangkaian aturan atau fungsi untuk
mengekstrak data menjadi bentuk yang diperlukan, sehingga data
tersebut dapat diproses dalam data warehouse. Berikut adalah hal-hal
yang dilakukan dalam tahap transformasi :
• Hanya memilih kolom tertentu saja untuk memasukkan ke
dalam data warehouse.
• Menterjemahkan nilai-nilai yang berupa kode.
• Mengkodekan nilai-nilai ke dalam bentuk bebas (contoh :
memetakan “pria” kedalam “p”).
• Melakukan perhitungan nilai-nilai baru (contoh : nilai-
qty*harga).
33
• Menggabungkan data dari berbagai sumber.
• Membuat ringkasan dari kumpulan data.
• Menentukan nilai surrogate key.
• Transposing atau pivoting (mengubah sekumpulan kolom
menjadi sekumpulan baris atau sebaliknya).
• Memisahkan sebuah kolom menjadi beberapa kolom.
• Menggunakan berbagai bentuk validasi data baik yang
sederhana maupun kompleks.
3. Load
Load adalah fase dimana data dimasukkan ke dalam data warehouse.
Jangka waktu proses ini tergantung pada kebutuhan perusahaan.
Misalnya dalam satu bagian, menentukan waktu setiap minggu untuk
memindahkan data operasional ke dalam data warehouse, sedangkan
bagian lainnya bisa saja menentukan waktu setiap jam untuk
memasukkan data ke dalam data warehose. Waktu dan jangkauan
untuk mengganti atau menambah data tergantung dari perancangan
data warehouse pada waktu menganalisis kebutuhan informasinya.
2.1.17 Metodologi Perancangan Data Warehouse
Berdasarkan pernyataan Kimball dan Ross di Connoly dan Begg (2005,
p1187), terdapat sembilan tahapan dalam membangun sebuah Data
Warehouse yang dikenal dengan nine-step methodology, yaitu sebagai
berikut:
1. Memilih Proses (Choosing the Process)
Proses (fungsi) bisnis merujuk pada subjek masalah atau kebutuhan
bisnis dan pemahaman mengenai data yang tersedia pada perusahaan.
34
Data Warehouse yang nantinya akan dibangun harus sesuai dengan
anggaran dan dapat menjawab masalah-masalah bisnis yang penting.
2. Memilih Grain (Choosing the Grain)
Memilih Grain yaitu menentukan hal yang sebenarnya dihadirkan
oleh tabel fakta. Setelah menentukan grain-grain pada tabel fakta,
dimensi-dimensi untuk setiap fakta diidentifikasi. Pada proses ini
juga tingkat granularity dari data akan ditentukan.
3. Identifikasi dan membuat dimensi yang sesuai ( Identifying and
Conforming the dimensions)
Mengidentifikasi dimensi disertai deskripsi detail yang secukupnya.
Ketika tabel dimensi berada pada dua atau lebih Data Warehouse,
maka tabel dimensi tersebut harus mempunyai dimensi yang sama
atau salah satu merupakan subset dari yang lainnya. Jika suatu tabel
dimensi digunakan oleh lebih dari satu Data Warehouse, maka
dimensinya harus disesuaikan.
4. Memilih Fakta (Choosing the Facts)
Memilih fakta yang akan digunakan dalam tabel fakta berdasarkan
proses bisnis dan Grain yang telah ditentukan. Untuk memilih fakta
perlu mengetahui informasi apa saja yang dibutuhkan oleh pengguna
dalam kaitannya dengan proses bisnis tertentu.
5. Menentukan data per-kalkulasi dari tabel Fakta (Storing pre-
calculation in the Fact table)
Setelah kita menentukan fakta, maka setiap fakta perlu diuji apakah
fakta lain yang merupakan hasil kalkulasi dari fakta-fakta yang telah
ditentukan. Fakta hasil kalkulasi sebaiknya disimpan didalam tabel
fakta, karena fakta ini akan dapat meningkatkan performasi dalam
35
memberikan hasil query. Disamping itu juga perlu diketahui bahwa
dengan menyimpan fakta hasil kalkulasi dalam tabel fakta berarti ada
tambahan penggunaan kapasitas dalam basis data.
6. Melengkapi tabel dimensi (Rounding out the Dimensions tables)
Pada tahap ini, hal yang dilakukan adalah menambahkan informasi
deskriptif yang berhubungan dengan setiap tabel dimensi yang ada.
Disamping itu, untuk melengkapi atribut tabel dimensi dengan cepat
maka perlu dilakukan identifikasi mengenai bagaimana tabel-tabel
dimensi saling berhubungan.
7. Memilih durasi dari basis data (Choosing the duration of the
database)
Menentukan durasi data yang akan dimasukkan kedalam Data
Warehouse berdasarkan kebutuhan perusahaan. Hal ini perlu
dilakukan supaya data yang akan dianalisis berdasarkan jangka waktu
tertentu berada dalam Data Warehouse.
8. Melacak dimensi yang berubah secara perlahan (Tracking slowly
changing dimension)
Slowly changing dimension dapat menjadi sebuah masalah. Ada tiga
tipe dasar slowly changing dimension, yaitu :
• Atribut dimensi yang berubah akan terhapus dan terisi nilai
atribut baru.
• Atribut yang berubah akan tetap tersimpan dan akan
dimasukkan suatu record baru dengan atribut yang sudah
berubah.
• Atribut dimensi yang telah berubah menimbulkan alternatif
sehingga nilai atribut lama dan baru dapat diakses dalam
sebuah dimensi yang sama.
36
9. Menentukan prioritas dan mode query (Deciding the query
priorities and the query modes)
Pada tahap ini kita mempertimbangakan perancangan fisik. Ini
merupakan salah satu salah satu tahap penting untuk membentuk
suatu tabel fakta secara fisik dan memunculkan summarized dan
aggregation.
2.2 Teori Khusus
2.2.1 Pengertian Pembelian
Menurut Soemarso S.R (1994), kegiatan pembelian dalam perusahaan dagang
adalah membeli barang dagang secara tunai atau kredit, membeli aktiva produksi untuk
digunakan dalam kegiatan perusahaan atau membeli barang dan jasa lain sehubungan
dengan kegiatan perusahaan.Sehingga dapat diperoleh kesimpulan bahwa pembelian
merupakan perkiraan yang digunakan untuk mencatat semua pembelian barang dagang
dalam satu periode tertentu.
2.2.2 Pengertian Penjualan
Menurut Kotler dan Amstrong (2006:457), penjualan merupakan sebuah proses
dimana kebutuhan pembeli dan kebutuhan penjualan dipenuhi, melalui antar pertukaran
informasi dan kepentingan. Jadi konsep penjualan adalah cara untuk mempengaruhi
konsumen untuk membeli produk yang ditawarkan. Dalam kenyataannya penjualan
mempunyai dua sistem yang biasa diterapkan oleh suatu perusahaan dagang yaitu
penjualan yang dilakukan dengan cara tunai dan penjualan yang dilakukan secara kredit
atau sering disebut cara angsuran.