review hdoop hbase basis data terdistribusi

37
Rifwan Hamidi 135150200111149 Basis Data Terdistribusi – C 2016 Review : Apache HBase

Upload: rifwan-hamidi

Post on 11-Jul-2016

52 views

Category:

Documents


0 download

DESCRIPTION

Universitas Brawijaya

TRANSCRIPT

Page 1: REVIEW HDOOP HBASE BASIS DATA TERDISTRIBUSI

Rifwan Hamidi 135150200111149

Basis Data Terdistribusi – C

2016

Review : Apache HBase

Page 2: REVIEW HDOOP HBASE BASIS DATA TERDISTRIBUSI

Hinggal saat ini, Google setidaknya telah mempublikasikan tiga system canggih dalam hubungannya dengan pengelolaan dan pemberdayaan Big Data.

Ketiga system canggih tersebut adalah :

Google File System

Google MapReduce

Google Bigtable

Latar Belakang

Rifwan Hamidi 135150200111149

Page 3: REVIEW HDOOP HBASE BASIS DATA TERDISTRIBUSI

Rifwan Hamidi 135150200111149

Page 4: REVIEW HDOOP HBASE BASIS DATA TERDISTRIBUSI

Dari konsep Google File System lahirlah Hadoop Distributed File System

Dari konsep Google MapReduce lahir Hadoop MapReduce

Dari spesifikasi Google Bigtable diciptakanlah Hadoop HBase

Ketiga produk Open Source ini merupakan teknologi GRATIS yang boleh dipakai oleh siapa saja, dan memang sudah digunakan oleh banyak perusahaan besar seperti halnya Yahoo!, Facebook, Twitter, IBM, Trend Micro, NTT Docomo, Recrute Japan, Adobe, Amazon, Rakuten Japan, Benipal Technologies dan masih banyak lagi.

Latar Belakang

Rifwan Hamidi 135150200111149

Page 5: REVIEW HDOOP HBASE BASIS DATA TERDISTRIBUSI

Non-relational, distributed database

Column‐Oriented

Multi‐Dimensional

High Availability

High Performance

HBase itu apa?

Rifwan Hamidi 135150200111149

Page 6: REVIEW HDOOP HBASE BASIS DATA TERDISTRIBUSI

Hbase (Hyper NoSQL Database)

HBase adalah database terdistribusi yang berorientasi pada kolom.

HBase adalah program yang berjalan diatas Hadoop Distributed File System yang mampu memproses data dalam skala besar secara interaktif.

HBase merupakan implementasi dari konsep Google Bigtable.

HBase itu apa?

Rifwan Hamidi 135150200111149

Page 7: REVIEW HDOOP HBASE BASIS DATA TERDISTRIBUSI

Relational Database Management System (RDBMS) seperti halnya MySQL, PostgreSQL dll yang sudah sangat dikenal dan biasa digunakan oleh berbagai kalangan,

pada awalnya tidaklah didesain untuk menangani data super besar dan dalam sistem terdistribusi yang memperkerjakan puluhan hingga ribuan komputer.

Kenapa harus HBase?

Rifwan Hamidi 135150200111149

Page 8: REVIEW HDOOP HBASE BASIS DATA TERDISTRIBUSI

Sedangkan, HBase sedari awal memang didesain untuk dapat mengelola data berukuran super besar dalam suatu sistem terdistribusi dan memiliki fungsi sharding original bawaan yang dapat bekerja secara otomatis maupun manual.

HBase juga mampu menangani input data yang terjadi secara terus-menerus dari ribuan user yang selama menjadi 'bottle neck' pada sistem database sebelumnya.

Kenapa harus HBase?

Rifwan Hamidi 135150200111149

Page 9: REVIEW HDOOP HBASE BASIS DATA TERDISTRIBUSI

Struktur Data HBase

Rifwan Hamidi 135150200111149

Page 10: REVIEW HDOOP HBASE BASIS DATA TERDISTRIBUSI

HBase memiliki struktur data yang cukup sederhana, yang hanya terdiri atas Key (kunci )dan Value (data).

Model ini dikenal dengan istilah Key Value Store (KVS).

Tiap kunci berpasangan dengan satu data. Key disusun berurutan, sedangkan data disimpan berdasarkan lokasi yang ditunjuk oleh Key-nya.

Struktur Data

Rifwan Hamidi 135150200111149

Page 11: REVIEW HDOOP HBASE BASIS DATA TERDISTRIBUSI

Pasanngan Key dan Value ini dapat diibaratkan

seperti halnya sebuah kamus.

Key adalah kata yang ingin kita cari artinya, kata-kata dalam kamus disusun berurutan berdasarkan urutan alfabet. Sedangkan Value adalah arti dari kata itu sendiri, yang disimpan berdasarkan lokasi Key-nya.

Struktur Data

Rifwan Hamidi 135150200111149

Page 12: REVIEW HDOOP HBASE BASIS DATA TERDISTRIBUSI

Key terdiri atas Row Key, Column Family, Column, dan Timestamp.

Row Key juga berupa 'byte array' dan bertindak sebagai 'Primary Key'. Row Key disusun berurutan pada bagian baris tabel

Column Family, Column dan Timestamp menempati bagian kolom dari tabel tersebut.

Sedangkan Value (datanya) adalah data yang disimpan dalam bentuk 'byte array' yang bisa berupa data teks, angka, website pages, maupun data binary.

Data yang disimpan disortir berdasarkan urutan Row Key

Struktur Data

Rifwan Hamidi 135150200111149

Page 13: REVIEW HDOOP HBASE BASIS DATA TERDISTRIBUSI

Struktur Data

Rifwan Hamidi 135150200111149

Page 14: REVIEW HDOOP HBASE BASIS DATA TERDISTRIBUSI

Column Family adalah kolom yang terdiri atas satu, beberapa atau ribuan Column. Column Family harus ditentukan pada saat pembuatan skema tabel, sedangkan Column dapat ditambahkan setiap saat

Struktur Data

Rifwan Hamidi 135150200111149

Page 15: REVIEW HDOOP HBASE BASIS DATA TERDISTRIBUSI

Secara fisik, sebuah tabel pada HBase akan disimpan per Column Family. Satu tabel dipecah menjadi beberapa bagian berdasarkan jumlah Column Family yang dimilikinya, kemudian tiap Column Family ini akan disimpan terpisah dalam media penyimpanan yang dalam hal ini adalah HDFS

Struktur Data

Rifwan Hamidi 135150200111149

Page 16: REVIEW HDOOP HBASE BASIS DATA TERDISTRIBUSI

Ketika data yang disimpan dalam satu tabel menjadi semakin banyak dan melewati batas jumlah baris maksimal yang ditentukan (default 64 MB),

maka tabel tersebut akan dipartisi menjadi dua bagian yang sama besar.

Tiap bagian ini disebut Region dan secara fisik disimpan terpisah satu sama lainnya.

Struktur Data

Rifwan Hamidi 135150200111149

Page 17: REVIEW HDOOP HBASE BASIS DATA TERDISTRIBUSI

Tiap Region memiliki penunjuk identitas (identifier) yang terdiri atas Nama Tabel asalnya dan Nomor baris nya

Struktur Data

Rifwan Hamidi 135150200111149

Page 18: REVIEW HDOOP HBASE BASIS DATA TERDISTRIBUSI

Jadi, sebuah tabel dalam HBase, secara vertikal (baris) dibagi menjadi beberapa Region dan secara horisontal (kolom) dibagi menjadi beberapa Column Family

Struktur Data

Rifwan Hamidi 135150200111149

Page 19: REVIEW HDOOP HBASE BASIS DATA TERDISTRIBUSI

Struktur Data

Rifwan Hamidi 135150200111149

Page 20: REVIEW HDOOP HBASE BASIS DATA TERDISTRIBUSI

Timestamp digunakan untuk memberikan versi pada suatu data yang memiliki Row Key, Column Family, dan Column yang persis sama.

Data yang persis sama ini akan disimpan dalam cell yang berbeda setelah diberi penanda waktu (Timestamp) dan diurut berdasarkan urutan Timestamp tersebut.

Data dengan versi terbaru (Timestamp terbesar) akan disimpan paling atas.

Struktur Data

Rifwan Hamidi 135150200111149

Page 21: REVIEW HDOOP HBASE BASIS DATA TERDISTRIBUSI

Struktur Data

Rifwan Hamidi 135150200111149

Page 22: REVIEW HDOOP HBASE BASIS DATA TERDISTRIBUSI

Arsitektur HBase

Rifwan Hamidi 135150200111149

Page 23: REVIEW HDOOP HBASE BASIS DATA TERDISTRIBUSI

Arsitektur

Rifwan Hamidi 135150200111149

Sebuah cluster HBase terdiri HMaster, RegionServer, ZooKeeper, dan HDFS

Page 24: REVIEW HDOOP HBASE BASIS DATA TERDISTRIBUSI

HMaster adalah server pada HBase yang bertugas men-start HBase, mendistribusikan Region ke RegionServer yang terdaftar, mendeteksi dan memulihkan RegionServer yang rusak.

RegionServer adalah server yang bertugas menyimpan danmengelola Region-region yang diterimanya dari Hmaster

ZooKeeper bertugas mengelola informasi pokok tentangkondisi Hbase

HDFS (Hadoop Distributed File System) berfungsi sebagaimedia penyimpanan data bagi HBase. Semua data yang diloading ke HBase dan data log HBase disimpan dalam HDFS.

Arsitektur

Rifwan Hamidi 135150200111149

Page 25: REVIEW HDOOP HBASE BASIS DATA TERDISTRIBUSI

Arsitektur

Rifwan Hamidi 135150200111149

Page 26: REVIEW HDOOP HBASE BASIS DATA TERDISTRIBUSI

Hadoop MapReduce sangat handal dalam memproses data secara sekali proses atau dikenal dengan 'batch processing'.

Tetapi, MapReduce tidak cukup efektif untuk memproses data secara interaktif.

Untuk menutupi kekurangan Hadoop MapReduce ini maka dikembangkanlah HBase.

HBase dapat menggerakkan MapReduce untuk memproses data yang membutuhkan mode 'batch processing'

Kompatibilitas HBase dengan

MapReduce

Rifwan Hamidi 135150200111149

Page 27: REVIEW HDOOP HBASE BASIS DATA TERDISTRIBUSI

Kompatibilitas HBase dengan

MapReduce

Rifwan Hamidi 135150200111149

Page 28: REVIEW HDOOP HBASE BASIS DATA TERDISTRIBUSI

Pengguna HBase

Rifwan Hamidi 135150200111149

Page 29: REVIEW HDOOP HBASE BASIS DATA TERDISTRIBUSI

Beberapa User :

Pengguna HBase

Rifwan Hamidi 135150200111149

Page 30: REVIEW HDOOP HBASE BASIS DATA TERDISTRIBUSI

Facebook -Messaging System

Pengguna HBase

Rifwan Hamidi 135150200111149

Page 31: REVIEW HDOOP HBASE BASIS DATA TERDISTRIBUSI

Twitter -People Search

Pengguna HBase

Rifwan Hamidi 135150200111149

Page 32: REVIEW HDOOP HBASE BASIS DATA TERDISTRIBUSI

Mozilla -Socorro

Pengguna HBase

Rifwan Hamidi 135150200111149

Page 33: REVIEW HDOOP HBASE BASIS DATA TERDISTRIBUSI

HBase vs. RDBMS

Rifwan Hamidi 135150200111149

Page 34: REVIEW HDOOP HBASE BASIS DATA TERDISTRIBUSI

HBase vs. RDBMS

Rifwan Hamidi 135150200111149

Page 35: REVIEW HDOOP HBASE BASIS DATA TERDISTRIBUSI

Kesimpulan

Rifwan Hamidi 135150200111149

Page 36: REVIEW HDOOP HBASE BASIS DATA TERDISTRIBUSI

HBase adalah database yang berorientasi pada kolom (column oriented database) yang beroperasi pada sistem file terdistribusi (distributed file system).

Secara default, HBase beroperasi pada HDFS (Hadoop Distributed File System). HBase dapat memproses data baik secara interaktif maupun dengan mode 'batch processing'. HBase juga bergantung pada ZooKeeper dan dapat bekerjasama dengan MapReduce.

Kesimpulan

Rifwan Hamidi 135150200111149

Page 37: REVIEW HDOOP HBASE BASIS DATA TERDISTRIBUSI

http://vijjam.blogspot.co.id/2013/03/hbase-hyper-nosql-database.html

https://cs.brown.edu/courses/cs227/archives/2011/slides/mar14-hbase.pdf

Daftar Pustaka

Rifwan Hamidi 135150200111149