juned riandi (09111001055) hadoop
DESCRIPTION
Juned Riandi (09111001055)Juned Riandi (09111001055)Juned Riandi (09111001055)Juned Riandi (09111001055)Juned Riandi (09111001055)Juned Riandi (09111001055)Juned Riandi (09111001055)Juned Riandi (09111001055)Juned Riandi (09111001055)Juned Riandi (09111001055)TRANSCRIPT
-
HADOOP
OLEH :
JUNED RIANDI
09111001055
JURUSAN SISTEM KOMPUTER
FAKULTAS ILMU KOMPUTER
UNIVERSITAS SRIWIJAYA
INDERALAYA
2015
-
1. Sejarah Hadoop
Hadoop diciptakan oleh Doug Cutting dan Mike Cafarella pada tahun 2005.
Cutting, pada saat itu bekerja di perusahaan Yahoo!, Kata Hadoop sendiri
adalah nama mainan gajah berwarna kuning milik anaknya.
Hadoop terinspirasi dari publikasi makalah Google MapReduce dan Google File
System (GFS) oleh ilmuwan dari Google, Jeffrey Dean dan Sanjay Ghemawat
pada tahun 2004.
2. Pengertian Hadoop
Hadoop adalah sebuah open-source framework untuk pemrosesan data-
sets skala besar dalam clusters hardware komputer yang terjangkau dan mudah
diperoleh. Pada umumnya framework Hadoop dikembangkan dalam bahasa Java,
dengan beberapa source code dalam bahasa C dan command line utilities ditulis
sebagai shell-scripts.
Framework Apache Hadoop tersusun dari 4 modul berikut:
Hadoop Common berisi libraries dan utilities yang dibutuhkan oleh
modul Hadoop lainnya.
Hadoop Distributed File System (HDFS) sebuah distributed file-system.
Hadoop YARN sebuah platform resource-management yang bertanggung
jawab untuk mengelola resources dalam clusters dan scheduling.
Hadoop MapReduce sebuah model programming untuk pengelolaan data
skala besar.
-
Fitur yang membuat Hadoop sangat berguna adalah Hadoop
Distributed File System (HDFS). Fitur ini adalah sistem penyimpanan
Hadoop yang mampu memecah data menjadi potongan-potongan yang
lebih kecil, yang disebut block. Block ini kemudian didistribusikan ke
seluruh cluster. Pendistribusian data ini memungkinkan map dan
mengurangi fungsi yang harus dijalankan pada subset yang kecil, bukan
pada satu data set yang besar. Hal ini akan meningkatkan efisiensi, waktu
proses dan memungkinkan skalabilitas yang diperlukan untuk memproses
data dalam jumlah besar.
3. Hadoop Distributed File System (HDFS)
HDFS adalah Sistem File Terdistribusi Hadoop. Hadoop adalah salah
satu proyek open source milik Apache. Jadi HDFS adalah sistem file terdistribusi
yang dikembangkan oleh Apache dalam proyeknya yang bernama Hadoop.
Apache mengembangkan HDFS berdasarkan konsep dari Google File System.
Oleh karena itu, HDFS sangat mirip dengan Google File System baik ditinjau dari
konsep logikanya, struktur fisik, maupun cara kerjanya. Lalu, sistem file
terdistribusi itu apa? Sederhananya, distributed file system (sistem file
terdistribusi) adalah file system yang menyimpan data tidak dalam satu hard disk
drive (HDD) atau media penyimpanan lainnya, tetapi data dipecah-pecah dan
disimpan tersebar dalam suatu cluster yang terdiri atas beberapa komputer, bisa
hanya 2 komputer, puluhan bahkan hingga ribuan komputer.
-
Ilustrasi akses file pada HDFS dapat dilihat pada gambar dibawah ini :
Gambar 1 : Ilustrasi akses file pada HDFS
Ilustrasi menyimpan file pada HDFS dapat dilihat pada gambar dibawah ini :
Gambar 2 : Ilustrasi menyimpan file pada HDFS
-
Ilustrasi membaca file pada HDFS dapat dilihat pada gambar dibawah ini :
Gambar 3 : Ilustrasi membaca file pada HDFS
4. MapReduce
MapReduce adalah sebuah kerangka perangkat lunak dan model yang dapat
memproses dan mengambil sejumlah data besar yang tersimpan secara paralel pada
sistem Hadoop. MapReduce library telah ditulis dalam banyak bahasa pemrograman, dan
oleh sebab itu dapat bekerja dengan MapReduce library. MapReduce dapat bekerja
dengan data terstruktur dan tidak terstruktur.
MapReduce bekerja dalam dua langkah. Langkah pertama adalah Map-phase,
dimana membagi data menjadi subset yang lebih kecil dan mendistribusikannya subset
tersebut pada node yang berbeda dalam sebuah cluster. Kemudian node dalam sistem
dapat melakukannya secara berulang, sehingga struktur multi-level tree yang membagi
data dalam subset selalu lebih kecil. Pada node tersebut, data diolah dan hasilnya
dilewatkan kembali ke master node. Langkah kedua adalah Reduce-phase. Master
node mengumpulkan semua data kembali dan menggabungkannya ke dalam beberapa
jenis output yang dapat digunakan lagi. Kerangka MapReduce mengelola semua berbagai
tugas secara paralel dan menyeluruh sistem, dan inilah merupakan inti dari Hadoop.
-
Dibawah ini dapat dilihat contoh dari Mapreduce :
Gambar 4 MapReduce
4. Manfaat Hadoop
Dibawah ini adalah beberapa manfaat hadoop :
Optimalisasi penyimpanan
Optimalisasi website
Manfaat ekonomi
5. Teknologi Sejenis
Dibawah ini beberapa teknologi sejenis hadoop :
Teradata Aster
EMC Greenplums Pivotal HD
Mahout