juned riandi (09111001055) hadoop

HADOOP

OLEH :

JUNED RIANDI

09111001055

JURUSAN SISTEM KOMPUTER

FAKULTAS ILMU KOMPUTER

UNIVERSITAS SRIWIJAYA

INDERALAYA

2015

1. Sejarah Hadoop

Hadoop diciptakan oleh Doug Cutting dan Mike Cafarella pada tahun 2005.

Cutting, pada saat itu bekerja di perusahaan Yahoo!, Kata Hadoop sendiri

adalah nama mainan gajah berwarna kuning milik anaknya.

Hadoop terinspirasi dari publikasi makalah Google MapReduce dan Google File

System (GFS) oleh ilmuwan dari Google, Jeffrey Dean dan Sanjay Ghemawat

pada tahun 2004.

2. Pengertian Hadoop

Hadoop adalah sebuah open-source framework untuk pemrosesan data-

sets skala besar dalam clusters hardware komputer yang terjangkau dan mudah

diperoleh. Pada umumnya framework Hadoop dikembangkan dalam bahasa Java,

dengan beberapa source code dalam bahasa C dan command line utilities ditulis

sebagai shell-scripts.

Framework Apache Hadoop tersusun dari 4 modul berikut:

Hadoop Common berisi libraries dan utilities yang dibutuhkan oleh

modul Hadoop lainnya.

Hadoop Distributed File System (HDFS) sebuah distributed file-system.

Hadoop YARN sebuah platform resource-management yang bertanggung

jawab untuk mengelola resources dalam clusters dan scheduling.

Hadoop MapReduce sebuah model programming untuk pengelolaan data

skala besar.

Fitur yang membuat Hadoop sangat berguna adalah Hadoop

Distributed File System (HDFS). Fitur ini adalah sistem penyimpanan

Hadoop yang mampu memecah data menjadi potongan-potongan yang

lebih kecil, yang disebut block. Block ini kemudian didistribusikan ke

seluruh cluster. Pendistribusian data ini memungkinkan map dan

mengurangi fungsi yang harus dijalankan pada subset yang kecil, bukan

pada satu data set yang besar. Hal ini akan meningkatkan efisiensi, waktu

proses dan memungkinkan skalabilitas yang diperlukan untuk memproses

data dalam jumlah besar.

3. Hadoop Distributed File System (HDFS)

HDFS adalah Sistem File Terdistribusi Hadoop. Hadoop adalah salah

satu proyek open source milik Apache. Jadi HDFS adalah sistem file terdistribusi

yang dikembangkan oleh Apache dalam proyeknya yang bernama Hadoop.

Apache mengembangkan HDFS berdasarkan konsep dari Google File System.

Oleh karena itu, HDFS sangat mirip dengan Google File System baik ditinjau dari

konsep logikanya, struktur fisik, maupun cara kerjanya. Lalu, sistem file

terdistribusi itu apa? Sederhananya, distributed file system (sistem file

terdistribusi) adalah file system yang menyimpan data tidak dalam satu hard disk

drive (HDD) atau media penyimpanan lainnya, tetapi data dipecah-pecah dan

disimpan tersebar dalam suatu cluster yang terdiri atas beberapa komputer, bisa

hanya 2 komputer, puluhan bahkan hingga ribuan komputer.

Ilustrasi akses file pada HDFS dapat dilihat pada gambar dibawah ini :

Gambar 1 : Ilustrasi akses file pada HDFS

Ilustrasi menyimpan file pada HDFS dapat dilihat pada gambar dibawah ini :

Gambar 2 : Ilustrasi menyimpan file pada HDFS

Ilustrasi membaca file pada HDFS dapat dilihat pada gambar dibawah ini :

Gambar 3 : Ilustrasi membaca file pada HDFS

4. MapReduce

MapReduce adalah sebuah kerangka perangkat lunak dan model yang dapat

memproses dan mengambil sejumlah data besar yang tersimpan secara paralel pada

sistem Hadoop. MapReduce library telah ditulis dalam banyak bahasa pemrograman, dan

oleh sebab itu dapat bekerja dengan MapReduce library. MapReduce dapat bekerja

dengan data terstruktur dan tidak terstruktur.

MapReduce bekerja dalam dua langkah. Langkah pertama adalah Map-phase,

dimana membagi data menjadi subset yang lebih kecil dan mendistribusikannya subset

tersebut pada node yang berbeda dalam sebuah cluster. Kemudian node dalam sistem

dapat melakukannya secara berulang, sehingga struktur multi-level tree yang membagi

data dalam subset selalu lebih kecil. Pada node tersebut, data diolah dan hasilnya

dilewatkan kembali ke master node. Langkah kedua adalah Reduce-phase. Master

node mengumpulkan semua data kembali dan menggabungkannya ke dalam beberapa

jenis output yang dapat digunakan lagi. Kerangka MapReduce mengelola semua berbagai

tugas secara paralel dan menyeluruh sistem, dan inilah merupakan inti dari Hadoop.

Dibawah ini dapat dilihat contoh dari Mapreduce :

Gambar 4 MapReduce

4. Manfaat Hadoop

Dibawah ini adalah beberapa manfaat hadoop :

Optimalisasi penyimpanan

Optimalisasi website

Manfaat ekonomi

5. Teknologi Sejenis

Dibawah ini beberapa teknologi sejenis hadoop :

Teradata Aster

EMC Greenplums Pivotal HD

Mahout

juned riandi (09111001055) hadoop

Documents