web viewkomputer juga membuat proses kerja menjadi lebih efisien, ... keyword generator . ... secara...

RANCANG BANGUN APLIKASI (E-DMS) ELECTRONIC DOCUMENT MANAGEMENT SYSTEM DENGAN METODE TF/IDF BERBASIS WEB

Yeni Kustiyahningsih, Akhmad Zamroni Hamid, Aeri RachmadJurusan Teknik Informatika, Fakutas Teknik, Universitas Trunojoyo

Jl. Raya Telang PO. BOX 2 Kamal, Bangkalan, Madura, 691962 [email protected]

ABSTRAK

Salah satu konsekuensi semakin banyaknya jumlah dokumen yang tersimpan dikomputer yaitu menyulitkan dalam pengorganisasian dokumen sehingga dibutuhkan aplikasi yang mampu memanajemen serta mengefektifkan dan mengefisienkan pengarsipan dokumen dengan harapan dapat membantu proses menjadi lebih cepat, baik dan murah.

Dalam proyek penelitian ini dilakukan perancangan dan pembuatan Aplikasi Electronic Document Management System Berbasis Web. Untuk proses pencarian informasi dokumen digunakan metode tf/idf dengan pendekatan cosine similarity yang mampu memperhitungkan bobot informasi yang lebih sesuai dengan pencarian. Metode tf/idf merupakan suatu cara untuk memberikan bobot hubungan suatu kata (term) terhadap dokumen dan cosine similarity merupakan salah satu ukuran kemiripan teks yang populer dan digunakan untuk menghitung nilai cosines sudut antara dua vektor.

Aplikasi Electronic Document Management System (E-DMS) berbasis web dalam penelitian ini mampu memanajemen dokumen di Ruang Baca Fakultas Teknik Universitas Trunojoyo dan kemudahan dalam memanfaatkan dokumen secara efektif dengan hasil pencarian lebih tepat dan efektif dengan menggunakan acuan threshold sebesar 0,0175, menunjukkan nilai rata-rata recall pada aplikasi ini sebesar 98,75% dengan nilai rata-rata Precision sebesar 69,24%. Sedangkan nilai rata-rata interpolated precision sebesar 89,3 % Nilai kemiripan tertinggi terdapat pada kata kunci “jalur terpendek” dengan nilai kemiripan sebesar 70,51%.

Kata Kunci : E-DMS, Perngarsipan dokumen, Metode tf/idf, cosine similarity, threshold

mailto:[email protected]

I. PENDAHULUAN

Kemajuan teknologi saat ini semakin pesat perkembangannya. Sebagai salah satu produk

teknologi adalah komputer yang sangat bermanfaat bagi masyarakat. Banyak pekerjaan manusia yang

dapat dibantu oleh komputer sehingga manusia dapat menjadi lebih produktif dan mempunyai waktu

senggang serta istirahat yang lebih panjang. Komputer juga membuat proses kerja menjadi lebih efisien,

efektif dan memberikan hasil kerja lebih baik dan lebih cepat. Begitu juga dengan dokumen yang

sebelumnya harus diketik manual dan langsung tertulis di kertas ketik yang memiliki kekurangan jika

terjadi kesalahan dalam pengetikan maka dokumen tersebut harus diketik ulang dari awal agar dokumen

terlihat bersih dan rapi. Selain itu dibutuhkan ruang yang cukup luas untuk mengarsipkan dokumen yang

masih berupa lembaran-lembaran tersebut. Berbeda setelah pemanfaatan komputer yang sudah merata di

segala bidang khususnya dalam pembuatan dokumen dan penyimpanan dokumen pada saat ini, berkas-

berkas bisa disimpan dan diakses serta dilakukan perubahan seperlunya.

Konsekuensinya semakin banyak jumlah dokumen-dokumen yang tersimpan dikomputer juga

menyulitkan dalam pengorganisasian dokumen itu sendiri apalagi dalam suatu organisasi atau

perusahaan yang memiliki jumlah banyak user dengan kebutuhan dokumen yang sama. Dan lebih efektif

lagi jika dokumen-dokumen tersebut tersimpan dalam komputer khusus yang akan menjadi pusat

penyimpanan dokumen suatu organisasi. Dari hal itu maka diperlukan sebuah aplikasi khusus yang dapat

menjembatani permasalahan diatas serta teknik pengarsipan dokumen berupa softcopy tersebut dengan

hak akses user yang berbeda sesuai dengan level pengguna guna mengefisiensikan dan mengoptimalkan

pemanfaatan kembali dokumen-dokumen elektronik tersebut atau yang dikenal dengan Electronic

Document Management System (E-DMS). Aplikasi E-DMS dalam penelitian ini mengambil studi kasus

manajemen penelitian dengan menggunakan metode tf/idf untuk melakukan pencarian dokumen dan

memperoleh hasil yang lebih tepat dan efektif. Berdasarkan latar belakang masalah yang telah dijelaskan

di atas, maka masalah dalam Penelitian ini adalah Bagaimana merancang dan membuat aplikasi

Electronic Document Management System (E-DMS ) berbasis web yang tepat dan efisien dengan

memanfaatkan metode tf/idf dalam proses pencarian informasi dokumen. Sedangkan tujuan dalam

Penelitian ini adalah membantu administrasi dalam pengarsipan dokumen dan pencarian dokumen

sehingga dapat mengefesienkan waktu dalam pencarian dokumen.

II. TINJAUAN PUSTAKA

2.1 Penelitian Sebelumnya

Izam Nurazwar, Teknik Informatika, ITS dalam penelitiannya yang berjudul “Pembangunan

Aplikasi Document Management System Berbasis Web “, uji coba aplikasi dilakukan pada studi kasus

manajemen dokumen tugas akhir mahasiswa Informatika ITS. Dari hasil uji coba tersebut, Document

Management System dapat memudahkan pembuatan, klasifikasi, pengaturan hak akses dan pencarian

dokumen[1]. Pada penelitian ini, penulis mengkombinasikan pembuatan Document Management System

dengan pencarian menggunakan metode tf/idf dan cosine similarity.

Rohmawati Fuat, Sistem Informasi, ITS dalam penelitiannya “Sistem Penilaian Esai Otomatis

Pada E-Learning Dengan Metode Cosine Similarity”. Diperoleh sebuah kesimpulan bahwa implementasi

algoritma cosine similarity dalam sistem esai penilaian otomatis akurat. Nilai similarity yang dihasilkan

sistem dikonversi kedalam nilai mahasiswa berdasarkan range yang sudah didefinisikan. Hasil uji coba

menunjukkan kesesuaian nilai sistem dengan nilai human raters antara 78.57% -96.99% [2]. Mengacu

pada hasil penelitian diatas, dalam penelitian ini penulis menggunakan metode cosine similarity untuk

membandingkan antara kesamaan query pencarian dengan term dokumen yang ada dalam database.

Irwan Darmawan, Teknik Informatika, Universitas Trunojoyo, 2010 dalam penelitiannya “

Rancang Bangun Aplikasi Keyword Generator Untuk Mendukung Pencarian Dokumen Menggunakan

Metode TF-IDF”, dibangun suatu sistem keyword generator berbasis java yang mampu mengekstrak teks

dari 3 jenis dokumen yang berekstensi pdf, txt dan doc. Adapun pencarian dokumen dilakukan melalui

aplikasi berbasis web dengan menggunakan metode tf/idf [3] . Dalam penelitian ini, penulis

mengaplikasikan 5 macam dokumen yang dapat diekstraksi dan menggunakan metode tf/idf sebagai

acuan dasar untuk proses pembobotan term dan menggunakan cosine similarity sebagai ukuran kemiripan

teks dalam proses pencarian.

2.2 Document Management System

Document Management System Merupakan program yang digunakan untuk melakukan

pengelolaan terhadap dokumendokumen serta arsip elektronik lainnya. Dokumen tersebut bisa berupa file

yang diolah melalui word processor ataupun berupa dokumen dengan format image. Untuk format image

ini biasanya merupakan dokumen hasil scan dari dokumen fisik berupa kertas. Document Management

System (DMS) [5] bermanfaat dalam mengefektifkan dan mengefisienkan proses bisnis. Manfaat yang

utama adalah pengguna dapat menemukan informasi yang dibutuhkan dengan cepat, sehingga dapat

membantu proses menjadi lebih cepat, baik dan murah.

2.3 Sistem Temu Balik Informasi

Temu kembali informasi (information retrieval) adalah ilmu pencarian informasi pada dokumen,

pencarian untuk dokumen itu sendiri, pencarian untuk metadata yang menjelaskan dokumen, atau mencari

di dalam database, baik relasi database yang stand-alone atau hypertext database yang terdapat pada

network seperti internet atau World Wide Web atau intranet, untuk teks, suara, gambar, atau data.

Information retrieval (IR) adalah ilmu yang lahir dari berbagai disiplin ilmu, baik ilmu komputer,

matematika, ilmu kepustakaan, ilmu informasi, psikologi kognitif, linguistik, statistik, maupun fisika.

Secara prinsip, penyimpanan informasi dan penemuan kembali informasi adalah hal yang sederhana.

Misalkan terdapat tempat penyimpanan dokumen-dokumen dan seseorang (user) merumuskan suatu

pertanyaan (request atau query) yang jawabannya adalah himpunan dokumen yang mengandung

informasi yang diperlukan yang diekspresikan melalui pertanyaan user. User bisa saja memperoleh

dokumen-dokumen yang diperlukannya dengan membaca semua dokumen dalam tempat penyimpanan,

menyimpan dokumen-dokumen yang relevan dan membuang dokumen lainnya. Hal ini merupakan

perfect retrieval, tetapi solusi ini tidak praktis. Karena user tidak memiliki waktu atau tidak ingin

menghabiskan waktunya untuk membaca seluruh koleksi dokumen, terlepas dari kenyataan bahwa secara

fisik user tidak mungkin dapat melakukannya. Oleh karena itu, diperlukan suatu sistem temu kembali

informasi (information retrieval system) untuk membantu user menemukan dokumen yang

diperlukannya. Model IR ada tiga jenis, yaitu :

Model Boolean : merupakan model IR sederhana yang berdasarkan atas teori himpunan dan

aljabar boolean.

Model Vector Space : merupakan model IR yang merepresentasikan dokumen dan query dalam

bentuk vektor dimensional.

Model Probabilistic : merupakan model IR yang menggunakan framework probabilistik.

2.4 TF-IDF (Terms Frequency-Inverse Document Frequency)

Metode Tf-Idf [4] merupakan suatu cara untuk memberikan bobot hubungan suatu kata (term)

terhadap dokumen. Metode ini menggabungkan dua konsep untuk perhitungan bobot yaitu, frekuensi

kemunculan sebuah kata didalam sebuah dokumen tertentu dan inverse frekuensi dokumen yang

mengandung kata tersebut. Frekuensi kemunculan kata didalam dokumen yang diberikan menunjukkan

seberapa penting kata tersebut didalam dokumen tersebut. Frekuensi dokumen yang mengandung kata

tersebut menunjukkan seberapa umum kata tersebut. Sehingga bobot hubungan antara sebuah kata dan

sebuah dokumen akan tinggi apabila frekuensi kata tersebut tinggi didalam dokumen dan frekuensi

keseluruhan dokumen yang mengandung kata tersebut yang rendah pada kumpulan dokumen (database).

Rumus umum untuk Tf-Idf :

wij =tfx idf

wij = tfij x log (N/n) (1)

Keterangan :

Wij = bobot kata/term tj terhadap dokumen di

Tfij = jumlah kemunculan kata/term tj dalam di

N = jumlah semua dokumen yang ada dalam database

n = jumlah dokumen yang mengandung kata/term tj

(minimal ada satu kata yaitu term tj)

Berdasarkan rumus diatas, berapapun besarnya nilai tfij, apabila N = n maka akan didapatkan

hasil 0 (nol) untuk perhitungan Idf. Untuk itu dapat ditambahkan nilai 1 pada sisi Idf, sehingga

perhitungan bobotnya menjadi sbb:

…………………………………………………1

Rumus (2) dapat dinormalisasi dengan Rumus (3) dengan tujuan untuk menstandarisasi nilai bobot ke

dalam interval 0 s.d. 1, sbb: Rumus Tf-Idf dengan menggunakan normalisasi

……………………………………2

2.5. Ukuran Kemiripan

Model ruang vektor dan pembobotan tf-idf digunakan untuk merepresentasikan nilai numerik

dokumen sehingga kemudian dapat dihitung kedekatan antar dokumen. Semakin dekat dua vektor di

dalam suatu VSM maka semakin mirip dua dokumen yang diwakili oleh vektor tersebut. Kemiripan antar

dokumen dihitung menggunakan suatu fungsi ukuran kemiripan (similarity measure). Ukuran ini

memungkinkan perankingan dokumen sesuai dengan kemiripan (relevansi)nya terhadap query. Setelah

dokumen diranking, sejumlah tetap dokumen top-scoring dikembalikan kepada pengguna. Alternatifnya,

suatu treshold dapat digunakan untuk memutuskan berapa banyak dokumen akan dikembalikan.

Threshold dapat digunakan untuk mengontrol tarik-ulur antara presisi dan recall. Nilai treshold tinggi

biasanya akan menghasilkan presisi tinggi dan recall rendah. Salah satu ukuran kemiripan teks yang

populer adalah cosine similarity. Ukuran ini menghitung nilai cosines sudut antara dua vektor. Jika

terdapat dua vektor dokumen dj dan query q, serta t term diekstrak dari koleksi dokumen maka nilai

cosinus antara dj dan q didefinisikan sebagai :

………………………………3

2.7 Treshold

Untuk memperoleh hasil pencarian dokumen yang maksimal dan dinyatakan mirip diperlukan

sebuah nilai batas (Treshold value). Untuk mendapatkan nilai batas (Treshold value) diperlukan suatu

data training (restrospective document). Nilai treshold (nilai batas) yang paling bagus digunakan adalah

0.0175 dengan nilai recall-precision 79 % dan nilai recall rata-rata 76 % dan precision rata-rata 87% [6].

III. METODOLOGI PENELITIAN

Metode penelitian yang di gunakan adalah sebagai berikut :

3.1. Studi Literatur

Dukungan teori dan bahan – bahan bacaan mengenai rekayasa perangkat lunak, Web

Programming, teori mengenai STBI (Sistem Temu Balik Informasi) dan metode STBI yang menunjang

penelitian sangat membantu peneliti untuk memahami obyek penelitian.

3.2. Survey, pengumpulan data dan informasi

Tahap Studi Lapangan atau Survey dilakukan dengan tujuan untuk mengetahui dan melihat secara

langsung dan lebih mendetail permasalahan yang akan diteliti, sehingga diperoleh data–data atau

informasi yang diperlukan. Pada tahap ini dilakukan dengan cara :

1. Interview yaitu suatu cara mendapatkan data melalui wawancara langsung dengan orang yang

berhubungan langsung dengan masalah.

2. Observasi yaitu cara pengumpulan data yang dilakukan dengan mengadakan peninjauan

langsung dengan objek yang diteliti

3.3. Analisa dan Perancangan Perangkat Lunak

Analisa dan Perancangan sistem digunakan untuk memberikan gambaran secara umum mengenai

aplikasi yang akan dibuat. Hal ini berguna untuk menunjang pembuatan aplikasi sehingga kebutuhan akan

aplikasi tersebut dapat diketahui. Tahap ini terdiri dari Analisa Sistem, analisa User merupakan

identifikasi berapa user yang di butuhkan atau yang boleh mengakses aplikasi tersebut, Analisa

Kebutuhan Hardware dan software, Blok Diagram rancangan sistem (gambar 1), Desain Use Case

Diagram, Perancangan Database, Perancangan Interface atau antar muka aplikasi.

Gambar 1. Blok Diagram Rancangan Sistem

3.4. Proses Implementasi dan Pengujian

Tahap ini menjelaskan tentang proses implementasi dan uji coba berdasarkan semua kebutuhan

pengguna (user requirement), pengumpulan data dan informasi kumpulan buku tugas akhir di ruang baca

fakultas teknik. Pada tahap ini akan di implementasikan dengan menggunakan tools baik software

maupun hardware yang mensupport sistem. Selama implementasi, pada tiap-tiap bagian tertentu

dilakukan proses pengujian secara bertahap hingga pada akhirnya seluruh hasil implementasi telah

mengalami pengujian dengan baik.

3.5. Pengambilan Kesimpulan

Setelah dilakukan implementasi dan uji coba maka hasil data tersebut akan dianalisa untuk

memperoleh suatu kesimpulan.

IV. HASIL DAN PEMBAHASAN

Rancangan sistem yang telah dibuat, diimplementasikan dengan menggunakan perangkat keras dan

perangkat lunak dengan spesifikasi sebagai berikut.

IV.1. Spesifikasi Perangkat Keras

Program ini dibuat dengan menggunakan perangkat keras (hardware) dan diuji coba dengan

hardware sebagai berikut :

1 Prosesor AMD Athlon™ 64 X2 Dual Core Processor 4000+ 2,11GHz.

2 Memory 1 GB.

3 Harddisk 80 GB.

4 Monitor dengan resolusi 1024 x 768 pixel.

5 Keyboard dan Mouse..

IV.2. Spesifikasi Perangkat Lunak

Program ini dijalankan dengan menggunakan perangkat lunak (software) sebagai berikut :

1 Microsoft Windows XP Profesional SP2

2 Adobe Photoshop CS2, digunakan untuk melakukan desain gambar.

3 Web Browser yang digunakan Firefox Setup 3.6.17.

4 Macromedia Dreamweaver 8 dan Notepad++ v5.4.1, digunakan sebagai editor website.

5 Xampp 1.7.3 digunakan sebagai web server.

4.3. Implementasi Sistem

4.3.1 Desain Antarmuka view dokumen

Aplikasi ini didesign dengan 2 antar muka utama, yaitu antarmuka khusus user dengan level

petugas serta administrator dan antarmuka untuk pengunjung dan member yang dapat melakukan

pencarian dokumen dalam sistem E-DMS ini. Di bawah ini gambaran secara singkat dari antarmuka

aplikasi yang telah dibuat.

Gambar 2. Desain Antarmuka Menu View Dokumen

Pada gambar di atas tampak semua informasi yang berkaitan dengan dokumen yang telah dipilih,

termasuk file dokumen elektronik yang sudah diunggah.

4.3.2. Uji Coba

Dalam ujicoba sistem ini digunakan data ujicoba sebagai berikut :

1 Jumlah koleksi dokumen abstraksi yang digunakan sebanyak 143 koleksi dokumen tugas akhir dari

angkatan 2001-2006 jurusan Teknik Informatika yang diambil dari koleksi Ruang Baca Fakultas

Teknik, Universitas Trunojoyo.

2 Daftar Stopword yang digunakan sebanyak 938 kata.

3 Indeks kata (term) yang berhasil diberi bobot sebanyak 8,547 kata.

4 Keyword yang digunakan dalam data ujicoba ini adalah keyword yang diambil secara acak dan

memiliki keterkaitan dengan koleksi abtraksi tugas akhir.

Gambar 3. Implementasi Pencarian Dokumen

Tabel 1. Hasil ujicoba dengan menggunakan acuan threshold sebesar 0,0175

Berdasarkan hasil ujicoba seperti yang tertera pada tabel 1. diatas dengan menggunakan acuan

threshold sebesar 0,0175, menunjukkan bahwa dengan menggunakan metode tf/idf dan pendekatan

pencarian dengan cosine similarity menghasilkan nilai recall yang baik dengan nilai sebesar 98,75%.

Sedangkan nilai rata-rata Precision sebesar 69,24%. Hal ini berkaitan dengan jumlah dokumen yang

berhasil di indeks. Semakin banyak jumlah dokumen yang berhasil di indeks maka jumlah dokumen yang

relevan bisa juga semakin besar dan akan berpengaruh pada nilai recall, namun besar pula jumlah noise

(atau dokumen yang tidak relevan), sehingga tingkat precision pun menjadi rendah. Nilai kemiripan

tertinggi terdapat pada kata kunci “jalur terpendek” dengan nilai kemiripan sebesar 70,51%

Sedangkan pengukuran performansi dengan mempertimbangkan aspek keterurutan atau rangking

dilakukan dengan melakukan interpolasi antara precision dan recall

Tabel 2. pengukuran performansi

Grafik 1. Interpolasi Recall Precision untuk Keyword Metode Fuzzy

Nilai interpolasi precision pada recall standard ini dirata-ratakan menjadi rata-rata interpolated

precision untuk menggambarkan performansi sistem temu kembali informasi. Nilai rata-rata interpolated

precision untuk hasil uji coba diatas menghasilkan nilai sebesar 0,893 atau sebesar 89,3%.

V. KESIMPULAN DAN SARAN

Kesimpulan dari penelitian ini adalah :

1. Aplikasi Electronic Document Management System (E-DMS) berbasis web dalam penelitian ini

mampu memanajemen dokumen di Ruang Baca FT Universitas Trunojoyo dan kemudahan

dalam memanfaatkan dokumen secara efektif.

2. Pemanfaatkan metode tf/idf sebagai pembobotan term dan cosine similarity sebagai ukuran

kemiripan teks dalam proses pencarian informasi dokumen pada aplikasi EDMS ini mampu

memperoleh hasil pencarian lebih tepat dan efektif dengan menggunakan acuan threshold

sebesar 0,0175, menunjukkan nilai rata-rata recall pada aplikasi ini sebesar 98,75% dengan

nilai rata-rata Precision sebesar 69,24%. Sedangkan nilai untuk rata-rata interpolated precision

menghasilkan nilai yang cukup baik dengan nilai sebesar 89,3 %. Nilai kemiripan tertinggi

terdapat pada kata kunci “jalur terpendek” dengan nilai kemiripan sebesar 70,51%.

Adapun saran untuk pengembangan penelitian selanjutnya adalah :

1. Perlu diadakan penyempurnaan E-DMS sehingga diperoleh E-DMS yang handal, keamanan

dokumen yang lebih baik sehingga dapat diaplikasikan dan dimanfaatkan pihak Universitas

Trunojoyo.

2. Untuk penelitian selanjutnya disarankan untuk melakukan stemming dalam proses pembobotan

dan pencarian sehingga diperoleh hasil kemiripan dokumen terkait yang lebih baik.

DAFTAR PUSTAKA

[1] Nurazwar, Izam. 2007. Pembangunan Aplikasi Document Management System BerbasisWeb. Tugas Akhir. Surabaya: ITS.

[2] Fuat, Rohmawati.2010. Sistem Penilaian Esai Otomatis Pada E-Learning Dengan Metode Cosine Similarity. Tugas Akhir. Surabaya: ITS.

[3] Darmawan, Irwan. 2010. . Rancang Bangun Aplikasi Keyword Generator Untuk Mendukung Pencarian Dokumen Menggunakan Metode TF-IDF. Tugas Akhir. Bangkalan : Universitas Trunojoyo.

[4] Intan, R., Defeng, A. 2006. HARD:Subject-based Search Engine menggunakan TF-IDF dan Jaccard’s Coefficient.

[5] Mandala, Rila. 2006. SNATI 2006: Peningkatan Performansi Sistem Temu-Kembali Informasi dengan Perluasan Query Secara Otomatis. Bandung: Institut Teknologi Bandung.

[6] Arifin, A. Z. dan Setiono, A. N. Klasifikasi Dokumen Berita Kejadian Berbahasa Indonesia dengan Algoritma Single Pass Clustering. Proceeding of Seminar on Intelligent Technology and Its Applications (SITIA). Surabaya : ITS.

web viewkomputer juga membuat proses kerja menjadi lebih efisien, ... keyword generator . ... secara...

Documents