juned riandi (09111001055) hadoop

6
HADOOP OLEH : JUNED RIANDI 09111001055 JURUSAN SISTEM KOMPUTER FAKULTAS ILMU KOMPUTER UNIVERSITAS SRIWIJAYA INDERALAYA 2015

Upload: juned-riandi

Post on 18-Dec-2015

99 views

Category:

Documents


5 download

DESCRIPTION

Juned Riandi (09111001055)Juned Riandi (09111001055)Juned Riandi (09111001055)Juned Riandi (09111001055)Juned Riandi (09111001055)Juned Riandi (09111001055)Juned Riandi (09111001055)Juned Riandi (09111001055)Juned Riandi (09111001055)Juned Riandi (09111001055)

TRANSCRIPT

  • HADOOP

    OLEH :

    JUNED RIANDI

    09111001055

    JURUSAN SISTEM KOMPUTER

    FAKULTAS ILMU KOMPUTER

    UNIVERSITAS SRIWIJAYA

    INDERALAYA

    2015

  • 1. Sejarah Hadoop

    Hadoop diciptakan oleh Doug Cutting dan Mike Cafarella pada tahun 2005.

    Cutting, pada saat itu bekerja di perusahaan Yahoo!, Kata Hadoop sendiri

    adalah nama mainan gajah berwarna kuning milik anaknya.

    Hadoop terinspirasi dari publikasi makalah Google MapReduce dan Google File

    System (GFS) oleh ilmuwan dari Google, Jeffrey Dean dan Sanjay Ghemawat

    pada tahun 2004.

    2. Pengertian Hadoop

    Hadoop adalah sebuah open-source framework untuk pemrosesan data-

    sets skala besar dalam clusters hardware komputer yang terjangkau dan mudah

    diperoleh. Pada umumnya framework Hadoop dikembangkan dalam bahasa Java,

    dengan beberapa source code dalam bahasa C dan command line utilities ditulis

    sebagai shell-scripts.

    Framework Apache Hadoop tersusun dari 4 modul berikut:

    Hadoop Common berisi libraries dan utilities yang dibutuhkan oleh

    modul Hadoop lainnya.

    Hadoop Distributed File System (HDFS) sebuah distributed file-system.

    Hadoop YARN sebuah platform resource-management yang bertanggung

    jawab untuk mengelola resources dalam clusters dan scheduling.

    Hadoop MapReduce sebuah model programming untuk pengelolaan data

    skala besar.

  • Fitur yang membuat Hadoop sangat berguna adalah Hadoop

    Distributed File System (HDFS). Fitur ini adalah sistem penyimpanan

    Hadoop yang mampu memecah data menjadi potongan-potongan yang

    lebih kecil, yang disebut block. Block ini kemudian didistribusikan ke

    seluruh cluster. Pendistribusian data ini memungkinkan map dan

    mengurangi fungsi yang harus dijalankan pada subset yang kecil, bukan

    pada satu data set yang besar. Hal ini akan meningkatkan efisiensi, waktu

    proses dan memungkinkan skalabilitas yang diperlukan untuk memproses

    data dalam jumlah besar.

    3. Hadoop Distributed File System (HDFS)

    HDFS adalah Sistem File Terdistribusi Hadoop. Hadoop adalah salah

    satu proyek open source milik Apache. Jadi HDFS adalah sistem file terdistribusi

    yang dikembangkan oleh Apache dalam proyeknya yang bernama Hadoop.

    Apache mengembangkan HDFS berdasarkan konsep dari Google File System.

    Oleh karena itu, HDFS sangat mirip dengan Google File System baik ditinjau dari

    konsep logikanya, struktur fisik, maupun cara kerjanya. Lalu, sistem file

    terdistribusi itu apa? Sederhananya, distributed file system (sistem file

    terdistribusi) adalah file system yang menyimpan data tidak dalam satu hard disk

    drive (HDD) atau media penyimpanan lainnya, tetapi data dipecah-pecah dan

    disimpan tersebar dalam suatu cluster yang terdiri atas beberapa komputer, bisa

    hanya 2 komputer, puluhan bahkan hingga ribuan komputer.

  • Ilustrasi akses file pada HDFS dapat dilihat pada gambar dibawah ini :

    Gambar 1 : Ilustrasi akses file pada HDFS

    Ilustrasi menyimpan file pada HDFS dapat dilihat pada gambar dibawah ini :

    Gambar 2 : Ilustrasi menyimpan file pada HDFS

  • Ilustrasi membaca file pada HDFS dapat dilihat pada gambar dibawah ini :

    Gambar 3 : Ilustrasi membaca file pada HDFS

    4. MapReduce

    MapReduce adalah sebuah kerangka perangkat lunak dan model yang dapat

    memproses dan mengambil sejumlah data besar yang tersimpan secara paralel pada

    sistem Hadoop. MapReduce library telah ditulis dalam banyak bahasa pemrograman, dan

    oleh sebab itu dapat bekerja dengan MapReduce library. MapReduce dapat bekerja

    dengan data terstruktur dan tidak terstruktur.

    MapReduce bekerja dalam dua langkah. Langkah pertama adalah Map-phase,

    dimana membagi data menjadi subset yang lebih kecil dan mendistribusikannya subset

    tersebut pada node yang berbeda dalam sebuah cluster. Kemudian node dalam sistem

    dapat melakukannya secara berulang, sehingga struktur multi-level tree yang membagi

    data dalam subset selalu lebih kecil. Pada node tersebut, data diolah dan hasilnya

    dilewatkan kembali ke master node. Langkah kedua adalah Reduce-phase. Master

    node mengumpulkan semua data kembali dan menggabungkannya ke dalam beberapa

    jenis output yang dapat digunakan lagi. Kerangka MapReduce mengelola semua berbagai

    tugas secara paralel dan menyeluruh sistem, dan inilah merupakan inti dari Hadoop.

  • Dibawah ini dapat dilihat contoh dari Mapreduce :

    Gambar 4 MapReduce

    4. Manfaat Hadoop

    Dibawah ini adalah beberapa manfaat hadoop :

    Optimalisasi penyimpanan

    Optimalisasi website

    Manfaat ekonomi

    5. Teknologi Sejenis

    Dibawah ini beberapa teknologi sejenis hadoop :

    Teradata Aster

    EMC Greenplums Pivotal HD

    Mahout