penggunaan text mining pada pengadaan buku di …
TRANSCRIPT
1
Penggunaan Text Mining pada Pengadaan Buku di Perpustakaan Universitas
Indonesia
Annisa Marlin Masbar Rus , Isti Surjandari
Departemen Teknik Industri, Fakultas Teknik, Universitas Indonesia, Depok, 16424
Abstrak
Pengadaan buku melakukan penyeleksian kebutuhan topik berdasarkan rekomendasi dosen,
beberapa mahasiswa, maupun pustakawan sendiri. Sumber ini dianggap kurang menyeluruh,
sehingga dibutuhkan sumber informasi lain, yaitu kata kunci pencarian buku. Penelitian ini
dilakukan di Perpustakaan Universitas Indonesia dengan menggunakan salah satu dari metode
text mining, yaitu metode Latent Relation Discovery untuk menemukan nilai relation strength
dengan memperhitungkan kemunculan bersamaan dan jarak antara kata. Hasil dari penelitian
menemukan 126 pasangan kata atau topik kata kunci pencarian dan 56 topik yang sesuai
dengan topik buku pinjaman dan 2 topik yang sesuai dengan topik buku yang akan diadakan,
sehingga 58 topik kemudian diajukan. Jika dibandingkan dengan hanya melihat frekuensi
kata, topik ini dapat memberikan informasi yang lebih spesifik. Namun jika dibandingkan
dengan topik pada buku pinjaman dan daftar pengadaan buku, topik kata kunci menjadi
terlalu umum dan terbatas pada kata yang muncul.
Kata Kunci :
Text mining, metode Latent Relation Discovery, nilai relation strength, pengadaan buku, topik
buku.
Use of Text Mining in Book Acquisition in University of Indonesia Library
Abstract
Books acquisition usually do the screening needs of topics based on lecturer recommendations, some students,
and librarian themselves. These sources are considered less comprehensive, thus other sources of information is
needed, that is keyword. This research was conducted at the University of Indonesia Library using one of the
methods of text mining, the method of Latent Relation Discovery, to find relations strength value by considering
the emergence of concurrence and distance between words. The results of the study found 126 pairs of words or
topic from keyword and 56 topics that fit with the topic of the borrowed book and the 2 topics that match the
topics to the book that is recommended. Rather than simply considering frequency of the words, this topic can
provide more specific information, but when it compared with the topics from the loan book and textbook
acquisition list, these topics become too common and limited to words that appear.
Keywords :
Text mining, Latent Relation Discovery method, relation strength value, books acquisition, book topics.
Penggunaan text..., Annisa Marlin Masbar Rus, FT UI, 2014
2
Pendahuluan
Kebanyakan pustakawan melakukan penambahan buku berdasarkan rekomendasi dari
pustakawan sendiri, beberapa pengguna, fakultas, dosen dan para penjual buku
(Stevens,1999). Sistem usulan pengadaan seperti inilah yang kemudian juga digunakan oleh
Perpustakaan UI untuk membuat keputusan pengadaan buku baru. Namun, koleksi-koleksi ini
dihasilkan dari preferensi individu dan bukan dari pengamatan secara keseluruhan atau
global. Pada akhirnya informasi ini dianggap tidak cukup dapat diandalkan (Wu et al, 2004).
Oleh karena itu dibutuhkannya deksripsi permintaan dan pencarian kebutuhan buku dari
pengamatan secara global.
Penerapan teknologi informasi pada perpustakaan UI memungkinkan para
penggunanya untuk mencari banyak hal pada halaman websitenya. Pengguna dapat mencari
lokasi dan ketersediaan koleksi dengan memasukkan kata kunci pencarian pada kolom
pencarian di halaman website ini. Tanpa membutuhkan pengiriman surat rekomendasi dari
para penggunanya, perpustakaan dapat pula menggunakan kata kunci pencarian ini untuk
menemukan topik buku yang dicari dan dibutuhkan oleh kebanyakan para pengguna secara
global. Namun, jumlah kata kunci pencarian ini mencapai lebih dari 10.000 masukan setiap
bulannya. Menurut Breeding (2013), dengan menggunakan metode yang sesuai data dalam
jumlah yang besar ini dapat digunakan, sehingga menghasilkan informasi yang berguna bagi
perpustakaan. Salah satu metode yang dapat mengetahui informasi tersembunyi dari data
dalam jumlah besar ini adalah data mining.
Berfokus pada bagian pengadaan di Perpustakaan UI dalam melakukan
pengembangan koleksi untuk dapat meningkatkan kepuasan pengguna terhadap ketersediaan
buku yang relevan, text mining digunakan untuk menemukan kata kunci topik pada kumpulan
kata kunci pencarian yang dimasukkan oleh pengguna perpustakaan. Metode text mining yang
digunakan adalah metode LRD untuk menentukan hubungan antar kata yang dianggap
memiliki keterkaitan yang tinggi dan dapat membentuk topik yang relevan. Selain itu
perpustakaan UI belum menggunakan kata kunci ini untuk menentukan topik, padahal dengan
mengetahui kata kunci topik, daftar pengadaan buku dapat dibentuk berdasarkan pencarian
atau kebutuhan dari kebanyakan pengguna. Sehingga pustakawan dapat mengadakan buku,
baik berupa penambahan buku yang telah ada atau penambahan buku untuk topik baru, yang
sesuai dengan kebutuhan kebanyakan pengguna. Hal ini akan berdampak baik bagi kepuasan
pengguna dan meningkatkan penggunaan teknologi informasi pada perpustakaan.
Penggunaan text..., Annisa Marlin Masbar Rus, FT UI, 2014
3
Tinjauan Teoritis
Perpustakaan Perguruan Tinggi
Perpustakaan perguruan tinggi ini sendiri menurut Hasugian (2009) adalah sebuah
perpustakaan atau sistem perpustakaan yang dibangun, diadministrasikan dan didanai oleh
sebuah universitas untuk memenuhi kebutuhan informasi, penelitian dan kurikulum dari
mahasiswa, fakultas dan stafnya. Berbagai pengertian tentang perpustakaan tinggi lainnya
secara umum menyatakan bahwa perpustakaan merupakan sumber informasi bagi institusi
pendidikan perguruan tinggi untuk menjalankan fungsinya dalam melakukan pembelajaran,
penelitian dan pengajaran.
Pengembangan Koleksi
Perpustakaan memiliki tugas untuk melakukan pengembangan koleksi agar koleksi
buku tetap sesuai dengan perkembangan zaman dan dapat memenuhi kebutuhan
penggunanya. Siregar (2008) dalam hal ini juga mengatakan bahwa pengembangan koleksi
adalah prioritas utama perpustakaan. Menurut Sulistyo (1991) bentuk pengembangan koleksi
dapat dilakukan dengan mengusahakan bahan-bahan yang belum di miliki perpustakaan atau
bisa juga berupa penambahan bahan pustaka yang masih kurang. Secara umum proses
pengembangan koleksi ini mencakup prosess penghimpunan dan penyeleksian bahan yang
kemudian dijadikan koleksi, dengan harapan koleksi ini sesuai, lengkap dan aktual dengan
kebutuhan para pengguna (Sumantri, 2002).
Text Mining
Menurut Miner et al (2012), text mining adalah istilah umum yang menggambarkan
berbagai teknologi yang dapat menganalisis dan memproses data teks yang bersifat semi
terstruktur (semistructured) dan tidak terstruktur (unstructured). Hal ini lah yang kemudian
membedakannya dengan data mining karena ia mengolah data yang bersifat terstruktur.
Tujuan dari text mining adalah untuk menemukan arti semantik atau maksud dari teks
berdasarkan susunan kata-kata atau teks yang disebut sintkasis. Proses pengolahan data teks
pada text mining sebenarnya adalah proses pengolahan teks dengan mengubahnya menjadi
data dalam bentuk numerik agar dapat diolah oleh program secara otomatis. Hal inilah yang
membuat text mining menghabiskan 80-90% usaha dan waktu pada praproses datanya.
Penggunaan text..., Annisa Marlin Masbar Rus, FT UI, 2014
4
Praproses Teks
Praproses teks ini dilakukan dengan tujuan untuk mengurangi kemungkinan terjadinya
kesalahan makna yang terbentuk dari hasil perhitungan. Karena teks dibentuk untuk
dimengerti oleh manusia dan kemampuan untuk memahami teks seperti halnya otak manusia
bekerja masih sangat sulit untuk di lakukan (Hearst, 2003). Berikut ini adalah kegiatan
praproses yang dilakukan.
a. Menentukan ruang lingkup atau satuan teks yang akan diproses. Penentuan ini dilakukan
berdasarkan tujuan dari text mining. Misalnya untuk fungsi klasifikasi atau kluster, satuan
teks yang cocok adalah satuan per dokumen, sedangkan untuk proses sentiment analysis
atau pencarian informasi (information retrieval), satuan teks dalam bentuk paragraf atau
unit yang lebih kecil akan lebih relevan.
b. Tokenization, yaitu sebuah proses yang memecah semua teks menjadi satuan kata yang
disebut token, dengan mempertimbangkan spasi dan tanda baca. Sedangkan untuk
akronim atau singkatan seperti K.P.K, smart tokenization dapat digunakan untuk
menghindari pembentukan token K.P.K menjadi K, P, dan K.
c. Menghilangkan kata-kata yang umum atau yang lebih dikenal dengan istilah stopwords.
Penghapusan kata-kata ini untuk satuan teks seperti dokumen tidak akan memberikan
dampak hilangnya informasi pada teks, karena berdasarkan perhitungan algoritma kata-
kata ini tidak memiliki pengaruh yang besar terhadap hasil akhir. Bahkan hal ini akan
mempercepat pemprosesan data. Kecuali bagi unit teks yang lebih kecil seperti paragraf
atau frase, karena hal ini akan membuatnya kehilangan maksud jika kata-kata ini
dihapuskan.
d. Menormalisasi semua kata-kata agar menjadi kata asal dengan menghilangkan imbuhan
pada kata yang disebut proses stemming. Proses ini akan membantu fungsi klasifikasi,
kulster atau indeks pencarian dalam meningkatkan keakurasian hasil dengan
mengelompokkan kata-kata tersebut berdasarkan konsep.
e. Menormalisasi ejaan, mencakup pembenaran ejaan yang salah atau berbeda sehingga
dapat menghindari penambahan token kata yang memiliki arti yang sama. Hal ini sering
kali terjadi pada bahasa inggris Amerika dan Inggris seperti kata color dan colour yang
memiliki arti yang sama, yaitu warna.
f. Mendeteksi batasan kalimat, yaitu seperti membagi data dalam bentuk paragraf menjadi
penggalan-penggalan kalimat agar mempermudah proses in identifikasi kata, tetapi bukan
menjadi satuan teks. Hal ini berlaku untuk data dalam bentuk paragraf, dokumen atau
bentuk data lain yang terdiri lebih dari satu kalimat.
Penggunaan text..., Annisa Marlin Masbar Rus, FT UI, 2014
5
g. Menormalisasi huruf besar dan kecil. Agar perhitungan kata memiliki keseragaman
bentuk untuk memudahkan proses identifikasi oleh program. Semua kata dinormalisasi
dengan cara mengubah bentuk semua kata menjadi huruf besar atau huruf kecil.
Metode Latent Relation Discovery (LRD)
Bertujuan untuk meningkatkan pemahaman hubungan antar kata yang tersembunyi.
Goncalves et al (2006) memperkenalkan metode Latent Relation Discovery untuk melakukan
pekerjaan dalam bidang information retrieval pada teks. Metode LRD ini menggabungkan
pertimbangan kemunculan kata secara bersamaan dan jarak antar kata untuk menentukan
hubungan antar kata yang disebut relation strength. Setiap kata yang ditargetkan akan
dihitung dan diurutkan berdasarkan relation strengthnya. Dalam pengaplikasiannya metode
LRD merupakan metode machine learning yang tidak membutuhkan data latihan dalam
penggunaannya atau disebut unsupervised learning, sehingga dapat memperkecil sifat
kelemahan dari metode supervised learning.
Pendekatan ini melakukan perhitungan pada tiga aspek, yaitu:
a. Kemunculan secara bersamaan (co-occurence).
Suatu kata dikatakan muncul secara bersamaan jika mereka muncul pada satuan
teks yang sama, satuan ini dapat berupa dokumen atau jendela kata (text window) yang
kecil. Jika kata tersebut berada pada satuan kata yang berbeda, maka kata tidak dikatakan
muncul secara bersaman. Secara umum, kata akan dikatakan memiliki hubungan yang
dekat jika ia cenderung untuk muncul secara bersamaan. Untuk menormalkan hubungan
antar kata ini, frekuensi relatif dari kemunculan secara bersamaan ini dapat didefinisikan
sebagai berikut.
( ) ( )
(1)
Di mana Num(W1,W2) adalah jumlah kemunculan kata W1 dan W2 secara
bersamaan, dan N adalah jumlah total kalimat pada corpus.
b. Jarak (distance)
Asumsi pada perhitungan ini adalah bahwa dua kata yang memiliki jarak yang
dekat cenderung memiliki relasi yang dekat pula. Jika kata W1 dan W2 muncul sekali
Penggunaan text..., Annisa Marlin Masbar Rus, FT UI, 2014
6
pada dokumen yang sama, maka jarak W1 dan W2 adalah selisih hitungan kata yang ada
diantara keduanya. Ketika kata W1 dan W2 muncul berkali-kali di dalam dokumen yang
sama, maka perhitungannya akan mengikuti definisi berikut,
( ) ∑ ( )
( ) (2)
Dimana fi(W1) adalah jumlah kemunculan W1 sebagai target kata pada dokumen
ke-i, min (W1j, W2) adalah jarak minimum antara kemunculan W1, W1j, dan W2. Secara
umum, mi(W1,W2) tidak sama dengan mi(W2,W1). Hal ini dikarenakan perbedaan target
kata utama.
c. Kekuatan hubungan (relation strength)
Kekuatan hubungan antara kata memasukkan pertimbangan co-occurence, rata-rata
jarak, dan frekuensi kemunculan secara bersamaan di dalam dokumen dengan persamaan
(3). Semakin besar jaraknya maka semakin kecil hubungan antar kata tersebut. Penentuan
target kata utama juga akan memberikan hasil perhitungan yang berbeda, sehingga
perhitungan kekuatan hubungan dengan target utama W1 dan W2 akan berbeda.
( ) ( ) ∑ ( ( ( )) ( ( ))
( )) (3)
Dimana ( ( )) = tfidfi (W1), ( ( )) = tfidfi (W2), dan
( ) dan ( ) adalah jumlah masing-masing kemunculan W1 dan W2
pada dokumen ke-i. Nilai term frequency and inverted document frequency atau dikenal
dengan tfidf didefinisikan sebagai berikut.
( ) ( ) (
) (4)
( ) ( )
( ( )) (5)
Dimana ( ) adalah frekuensi kata j pada dokumen ke-i yang dinormalisasi
dengan frekuensi maksimum dari semua kata pada dokumen ke-i. Sedangkan N adalah
jumlah seluruh dokumen dan dfj adalah jumlah dokumen yang mengandung kata j.
Penggunaan text..., Annisa Marlin Masbar Rus, FT UI, 2014
7
Metode Penelitian
Tahapan Penelitian
Penelitian ini dimulai dengan menentukan terlebih dahulu tujuan penelitian yang
diinginkan serta metode yang digunakan untuk memenuhi tujuan. Kemudian pengumpulan
data berupa daftar kata kunci pencarian selama 7 bulan (September 2013 – Maret 2014)
dikumpulkan dari server Perpustakaan UI untuk dicari pasangan hubungan antar katanya agar
membentuk topik. Praproses teks lalu dilakukan dengan menghapuskan tanda baca dan
imbuhan (stopword), menyamaratakan ukuran huruf, menentukan penggalan kalimat dan
satuan teks, memotong-motong kalimat menjadi kata per kata (tokenization) serta
menormalisasi ejaan sehingga membentuk term-document matrix. Melalui metode LRD
didapatkan nilai relation strength pasangan kata yang telah mempertimbangkan kemunculan
secara bersamaan dan jarak antar katanya. Setelah itu pasangan kata ini diurutkan berdasarkan
nilai relation strength tertinggi dan di prioritaskan berdasarkan kontribusinya terhadap 80%
dari keseluruhan nilai relation strength. Untuk menemukan pasangan kata yang sesuai agar
dapat direkomendasikan, pasangan kata atau topik ini kemudian disamakan dengan pasangan
kata atau topik yang didapatkan dari judul buku yang telah dipinjam. Diasumsikan
kemunculan topik yang sama diantara keduanya menunjukkan buku tersebut telah dipinjam
dan ditemukan. Selain itu turnratio dari topik buku (durasi pinjam dalam hari/topik buku)
juga dihitung untuk memperlihatkan tingkat kepentingan buku. Kemudian topik pencarian
yang tidak sama dengan topik buku pinjam disamakan dengan topik buku rekomendasi yang
didapatkan dari judul buku yang direkomendasikan. Sisa topik buku pencarian yang tidak
sama dengan topik rekomendasi dan buku pinjam kemudian dijadikan topik buku usulan
untuk pengadaan Perpustakaan Universitas Indonesia.
Subjek dan Objek Penelitian
Penelitian ini difokuskan pada koleksi buku cetak. Pada dasarnya koleksi buku yang
dimiliki Perpustakaan Universitas Indonesia mencakup buku cetak, buku elektronik, skripsi,
thesis dan disertasi.
Peralatan yang Digunakan
Alat bantu software utama yang digunakan dalam penelitian ini adalah Matrix
Laboratory (MATLAB) versi R2013a dan Microsoft Office Access untuk membantu
pengolahan data.
Penggunaan text..., Annisa Marlin Masbar Rus, FT UI, 2014
8
Hasil Penelitian
Hasil dari penelitian yang dilakukan adalah berupa daftar pasangan kata atau topik
yang diprioritaskan berdasarkan 80% kontribusinya, yaitu sebagai berikut pada Tabel 1.
Tabel 1 Nilai Relation Strength Topik Kata Kunci Pencarian
No. Word 1 (W1) Word 2 (W2) Nilai Relation Strength W1-W2
1 humaniora lmusosial 508,1066
2 kedokteran kesehatan 183,7388
3 good governance 144,3515
4 laporan keuangan 105,6485
5 sains teknologi 104,2611
6 public relations 77,93853
7 kinerja keuangan 74,97789
8 kinerja perawat 66,44654
9 bahasa indonesia 51,81653
10 perlindungan konsumen 45,6367
11 kepuasan kerja 43,77982
12 kebijakan implementasi 42,68887
13 corporate governance 34,09462
14 media sosial 33,69365
15 audit internal 30,39703
16 harga saham 30,33838
17 modal pasar 29,63369
18 konsep diri 28,24634
19 corporate good 26,94741
20 keuangan manajemen 26,57022
21 kasus studi 26,1353
22 keselamatan kerja 25,93629
23 manajemen risiko 24,26839
24 kepuasan pasien 22,69443
25 hukum pidana 22,5712
26 kerja perawat 22,19273
27 kesehatan kerja 21,98212
28 pemasaran strategi 21,926
29 kesehatan keselamatan 21,02968
30 budaya organisasi 20,98418
31 kualitas hidup 20,37334
32 kepatuhan pajak 20,18006
33 teknologi informasi 20,16061
34 koleksi perpustakaan 19,75602
35 bank syariah 19,30393
36 kesehatan masyarakat 19,30293
Penggunaan text..., Annisa Marlin Masbar Rus, FT UI, 2014
9
No. Word 1 (W1) Word 2 (W2) Nilai Relation Strength W1-W2
37 ilmu perpustakaan 18,97548
38 komunikasi strategi 18,73487
39 kualitas pelayanan 18,7321
40 status gizi 17,75678
41 ibu hamil 17,67212
42 metode penelitian 17,56511
43 kinerja karyawan 16,47905
44 pengetahuan sikap 16,14198
45 gaya kepemimpinan 14,95036
46 kinerja perusahaan 14,70764
47 tindak pidana 14,43776
48 pengetahuan perilaku 14,16886
49 pelayanan kesehatan 13,88975
50 bahasa jepang 13,4509
51 demam berdarah 13,29331
52 kinerja pegawai 13,26401
53 tenaga kerja 13,17437
54 akuntansi sisteminformasi 13,11456
55 hubungan pengetahuan 12,88008
56 ekonomi makro 12,51761
57 anak jalanan 12,16496
58 gagal ginjal 12,07756
59 kebijakan publik 11,6949
Kemudian setelah disamakan dengan topik buku pinjam didapatkan 56 daftar topik
dengan 10 topik utama seperti pada Tabel 2 beserta dengan nilai turnrationya.
Tabel 2 Nilai Relation Strength dan Turnratio untuk Topik Pencarian yang Sama dengan
Buku Pinjaman
No. Word 1 Word 2 Relation Strength Turn ratio (hari/topik)
1 kedokteran kesehatan 183,74 80,78
2 good governance 144,35 24,44
3 laporan keuangan 105,65 59,24
4 public relations 77,94 10,54
5 bahasa indonesia 51,82 21,22
6 perlindungan konsumen 45,64 70,64
7 kebijakan implementasi 42,69 48,94
8 corporate governance 34,09 41,24
9 media sosial 33,69 13,14
10 modal pasar 29,63 52,52
Tabel 1 Nilai Relation Strength Kata Kunci Topik (lanjutan)
Penggunaan text..., Annisa Marlin Masbar Rus, FT UI, 2014
10
Lalu topik pencarian yang tidak sama disamakan dengan topik buku rekomendasi
yang menghasilkan hanya 2 topik yang sama, yaitu “kasus studi” dan “sektor publik” dengan
nilai relation stength masing-masing sebesar 26,135 dan 5,975. Kemudian topik yang tidak
sama dengan topik buku yang dipinjam dan buku rekomendasi menjadi topik buku usulan
untuk pengadaan buku di Perpustakaan UI pada saat penyeleksian buku. Daftar topik tersebut
adalah seperti Tabel 3 berikut.
Tabel 3. Daftar Topik yang Direkomendasikan
No. Word 1 Word 2 Nilai Relation Strength
1 humaniora Ilmusosial 508,11
2 sains teknologi 104,26
3 kinerja keuangan 74,98
4 kinerja perawat 66,45
5 kepuasan kerja 43,78
6 audit internal 30,4
7 harga saham 30,34
8 konsep diri 28,25
9 keselematan kerja 25,94
10 kepuasan pasien 22,69
11 kerja perawat 22,19
12 kerja kesehatan 21,98
13 kesehatan keselamatan 21,03
14 budaya organisasi 20,98
15 kualitas hidup 20,37
16 kepatuhan pajak 20,18
17 koleksi perpustakaan 19,76
18 strategi komunikasi 18,73
19 kualitas pelayanan 18,73
20 status gizi 17,76
21 ibu hamil 17,67
22 kinerja karyawan 16,48
23 pengetahuan sikap 16,14
24 gaya kepemimpinan 14,95
25 pengetahuan perilaku 14,17
26 demam berdarah 13,29
27 kinerja pegawai 13,26
28 akuntansi sisteminformasi 13,11
29 hubungan pengetahuan 12,88
30 anak jalanan 12,16
Penggunaan text..., Annisa Marlin Masbar Rus, FT UI, 2014
11
No. Word 1 Word 2 Nilai Relation Strength
31 gagal ginjal 12,08
32 kinerja kerja 11,52
33 motivasi belajar 11,41
34 input output 11,13
35 gawat darurat 10,17
36 asi eksklusif 10,07
37 evaluasi kebijakan 9,87
38 pelaksana perawat 9,3
39 tingkat pengetahuan 9,14
40 hubungan perawat 8,61
41 ibu pengetahuan 8,56
42 dki jakarta 8,29
43 return saham 8,08
44 gambaran pengetahuan 7,33
45 kepuasan pelayanan 7,14
46 evaluasi program 7,12
47 pasien rawat 6,66
48 anak ibu 6,27
49 pasien tingkat 6,05
50 rasio keuangan 5,27
51 kinerja penilaian 5,22
52 dukungan keluarga 5,2
53 kepuasan perawat 5,02
54 dana pensiun 5,02
55 perencanaan strategis 4,78
56 rawat inap 4,75
57 wajib pajak 4,74
58 jaminan kesehatan 4,48
59 nilai tukar 4,23
60 tugas akhir 3,9
61 bayi prematur 3,88
62 status ekonomi 2,56
63 manajemen laba 2,46
64 audit komite 2,44
65 gizi balita 2,23
66 stress kerja 2,11
67 tingkat kecemasan 1,91
68 pemberian asi 0,94
Tabel 3.6. Daftar Topik yang Direkomendasikan (lanjutan)
Penggunaan text..., Annisa Marlin Masbar Rus, FT UI, 2014
12
Pembahasan
Analisa Topik Buku Pencarian
Penelitian ini bertujuan untuk menemukan hubungan antara dua kata dari kata kunci
pencarian buku di website Perpustakaan UI yang kemudian dapat diinterpretasikan sebagai
masukan topik bagi penyeleksian pengadaan buku. Hubungan kedua kata ini dilihat dengan
menghitung nilai relation strength antara dua kata dengan mempertimbangkan kemunculan,
jarak dan susunan kata pada teks entri kata kunci.
Nilai ini memiliki rentang nilai mulai dari 0 hingga ∞. Hal ini dikarenakan nilai
disesuaikan dengan jumlah keseluruhan unit teks (yaitu jumlah entri) dan kata yang ada di
dalam teks. Semakin tinggi nilai relasi ini maka semakin dekat jarak antara kedua kata dan
sering pula kedua kata tersebut muncul pada entri kata kunci. Hal ini menunjukkan bahwa
hubungan kedua kata tersebut semakin sesuai. Sebaliknya, semakin kecil nilai relasinya maka
kedua kata tersebut berada pada jarak yang cukup jauh dan tidak sering muncul pada entri.
Hal ini menunjukkan bahwa hubungan kedua kata semakin kurang sesuai. Sehingga keeratan
hubungan kata dilihat dari tingkat nilai relation strength tersebut.
Jika perpustakaan hanya mengambil informasi dari entri kata kunci yang memiliki
frekuensi tertinggi untuk mengetahui kebutuhan topik pengguna. Maka informasi yang
didapatkan tidak cukup untuk menunjukkan kebutuhan topik secara umum yang dicari oleh
pengguna. Hal ini dikarenakan kata yang digunakan oleh pengguna terlalu spesifik dan kata
hanya dikumpulkan berdasarkan kesamaan kata secara keseluruhan. Misalnya seperti kata
korban yang muncul sebanyak 132 kali, tetapi tidak memberikan gambaran kebutuhan. Jika
nilai relation strength dihitung, maka hubungan dua kata yang memiliki hubungan yang kuat
dapat ditemukan dan makna kata menjadi lebih umum, sehingga kata menjadi lebih sesuai
untuk dijadikan rekomendasi topik.
Berdasarkan perhitungan ditemukan bahwa pasangan kata atau topik “Humaniora
Ilmu Sosial” dengan nilai relation strength tertinggi sebesar 508,106. Berdasarkan nilai ini
dapat diasumsikan bahwa kebanyakan pengguna kemungkinan berasal dari Fakultas Ilmu
Sosial dan Ilmu Politik ataupun Fakultas Ilmu Pengetahuan Budaya, karena kata topik atau
pasangan kata ini sering sekali muncul hingga menjadikannya kata yang sangat sesuai untuk
terus muncul secara bersamaan.
Informasi yang diberikan oleh pasangan kata ini lebih menyeluruh bagi berbagai jenis
kata kunci pencarian yang dimasukkan. Sedangkan jika perpustakaan hanya melihat
Penggunaan text..., Annisa Marlin Masbar Rus, FT UI, 2014
13
kebutuhan topik dari frekuensi kemunculan entri terbanyak atau kata terbanyak, maka
informasi yang didapatkan akan berbeda. Kata yang paling banyak muncul pada data kata
kunci pencarian adalah kata “Indonesia” dengan jumlah frekuensi sebesar 9020, diikuti oleh
kata “manajemen” (8300), “kesehatan” (7890), “hukum” (7530) dan “kinerja” (6750).
Sedangkan pasangan kata topik yang diperoleh menunjukkan bahwa topik dibidang
Humaniora dan Ilmu Sosial memiliki hubungan yang lebih erat dari pasangan kata yang
lainnya. Hal ini dapat disebabkan oleh kemunculan kata “Indonesia” memiliki variasi yang
cukup besar pada kemunculan pasangan kata daripada kata “Humaniora”. Variasi kata
“Indonesia” muncul dengan urutan pasangan kata “sejarah Indonesia” dengan nilai relation
6,868 dan “sistem Indonesia” dengan nilai 3,644. Sedangkan kata “Humaniora” dan “Ilmu
Sosial” selalu muncul bersamaan. Sehingga dapat disimpulkan bahwa kata dengan frekuensi
tertinggi pada dasarnya terlalu umum dan memiliki pasangan kata yang sangat bervariasi,
dikarenakan kata pencarian yang dimasukkan mungkin terlalu spesifik. Namun, dengan
mengetahui nilai relation strengthnya, topik yang lebih mengerucut dapat diketahui.
Selain itu, berdasarkan data daftar topik dapat disimpulkan juga bahwa kecenderungan
topik berasal dari ranah ilmu sosial, ilmu budaya, ilmu ekonomi dan lainnya. Sedangkan
kemunculan kata kunci topik dalam Bahasa Inggris juga cenderung dibawah 5% dari
keseluruhan kata kunci pencarian. Sehingga dapat dilihat pula bahwa kecenderungan
pengguna masih mencari buku dalam Bahasa Indonesia.
Analisa Topik Peminjaman Buku
Pasangan kata dari kata kunci pencarian yang sama dengan pasangan kata pada buku
pinjaman pada penelitian ini merepresentasikan bahwa judul buku dengan topik tersebut
tersedia dan telah dipinjam oleh pengguna. Sebaliknya, jika pasangan kata tersebut tidak
sama, maka kemungkinan ketidaktersediannya buku yang mengandung topik tersebut terjadi.
Kemungkinan lainnya adalah buku dengan topik tersebut sedang dipinjam oleh seseorang
selama tujuh bulan, sesuai dengan durasi pengambilan data. Di mana kemungkinan terakhir
ini kecil terjadi.
Sebelumnya perhitungan terhadap nilai turn ratio telah dihitung pada bab sebelumnya,
di mana semakin kecil nilai turnratio suatu kata maka semakin kecil pula durasi dalam
hitungan hari judul buku dengan topik tersebut dipinjam, seperti yang terjadi pada pasangan
kata “manajemen risiko” dengan nilai 0,62. Hal ini terjadi karena buku tersebut sering
dipinjam dalam durasi hari yang hanya sebentar dan dikarenakan buku tersebut bisa saja tidak
sesuai dengan kebutuhan pengguna sehingga buku langsung dikembalikan, atau buku tersebut
Penggunaan text..., Annisa Marlin Masbar Rus, FT UI, 2014
14
memiliki banyak peminat sehingga penambahan buku dibutuhkan. Tingkat peminat ini
kemudian dapat dilihat dari nilai relations strength, di mana semakin tinggi nilai ini maka
semakin sering pula pasangan kata ini dicari, erat hubungannya dan sesuai sebagai topik.
Sebaliknya, jika nilai turnratio lebih dari 14 hari atau 2 minggu, maka topik tersebut
dapat dipinjam dalam waktu yang cukup lama. Hal ini dapat disebabkan karena variasi buku
dengan topik tersebut cukup banyak, sehingga ketersediaan buku yang ada dapat dipinjam
dalam waktu yang cukup lama. Begitu juga sebaliknya untuk nilai relation strengthnya.
Berdasarkan nilai relation strength, topik buku “kedokteran kesehatan” memiliki
intensitas kemunculan yang tinggi pada jarak yang dekat, sehingga menjadikannya kata yang
sangat erat hubungannya. Tetapi, nilai turn ratio pasangan kata ini melebihi batas hari
peminjaman pada umumnya suatu buku dipinjam. Sehingga hal ini menunjukkan bahwa judul
buku dengan topik tersebut hanya dipinjam beberapa kali dalam waktu yang lama. Berbeda
halnya dengan topik “manajemen resiko” yang memiliki nilai turnratio yang kecil dengan
nilai relation strength sebesar 24,27. Hal ini menunjukkan bahwa topik tersebut tidak cukup
sering dicari.
Sehingga kemudian dapat disimpulkan bahwa pasangan kata yang diperoleh dari
basis data kata kunci pencarian dan memiliki nilai relations strength cukup tinggi cenderung
bersifat umum jika dibandingkan dengan pasangan kata yang diperoleh dari judul buku yang
dipinjam. Hal inilah yang kemudian membuat pasangan kata yang memiliki nilai relations
strength tertinggi tidak memiliki kesamaan pada basis data judul buku yang telah dipinjam.
Analisa Topik Pengadaan Buku
Topik dari basis data pencarian yang tidak sesuai dengan basis data kata kunci buku
yang telah dipinjam kemudian disamakan kembali dengan basis data kata kunci pengadaan
buku. Hal ini bertujuan untuk melihat kecocokan data kata kunci topik yang dibentuk dengan
data kata kunci pengadaan yang telah dibentuk. Jika terjadi kesamaan, maka kata kunci topik
buku yang dicari tersebut dapat dijadikan prioritas untuk diadakan terlebih dahulu.
Sebesar 70% judul buku yang akan diajukan untuk diadakan dicetak dalam bahasa
Inggris, sedangkan hampir 80% entri kata kunci yang digunakan untuk mencari buku dan
judul buku yang dipinjam berbahasa Indonesia. Hal ini menunjukkan bahwa pengguna
Perpustakaan UI masih cenderung melakukan pencarian dan meminjam buku dalam Bahasa
Indonesia. Sehingga kesamaan topik sulit untuk ditemukan.
Kesamaan dari kata kunci topik dan kata kunci pengadaan kemudian hanya terjadi
pada kata “studi kasus” dan “sektor publik” dengan nilai relation sebesar 26,135 dan 5,975.
Penggunaan text..., Annisa Marlin Masbar Rus, FT UI, 2014
15
Kemungkinan yang terjadi sehingga kesamaan topik hanya terjadi pada dua kata ini
dikarenakan pasangan kata ini cenderung bersifat lebih umum, sedangkan judul buku
cenderung lebih spesifik. Selain itu pasangan kata yang diperoleh juga terbatas pada kata yang
hanya muncul pada corpus tersebut.
Kesimpulan
Kebutuhan topik pengguna dapat dianalisis melalui data entri kata kunci pencarian
pengguna. Perhitungan nilai relation strength dengan menggunakan metode Latent Relation
Dicovery (LRD) memungkinkan perpustakaan untuk dapat mengetahui topik yang dicari oleh
pengguna secara lebih khusus ataupun umum. Selain itu, metode ini juga merupakan metode
yang tidak membutuhkan latihan data (training data) atau bersifat unsupervised. Disamping
itu kata yang diperoleh hanya terbatas dari kata yang muncul pada dokumen, sehingga hasil
pasangan kata cenderung lebih spesifik.
Terdapat 59 pasangan kata atau topik yang diprioritaskan pada kata kunci pencarian,
56 pasangan kata yang sesuai dengan pasangan kata buku pinjaman dan 2 pasangan kata yang
sesuai dengan pasangan kata buku yang ingin diadakan. Sehingga dihasilkan 58 topik yang
dapat dijadikan pertimbangan untuk melakukan pengadaan buku. Jika dibandingkan dengan
hanya melihat frekuensi kata, pasangan kata ini dapat memberikan informasi yang lebih
spesifik dan memiliki makna semantik yang sesuai. Namun, jika dibandingkan dengan topik
pada buku pinjaman dan topik buku rekomendasi, topik kata kunci pencarian menjadi
cenderung lebih umum dan terbatas pada kata yang muncul di pencarian. Tetapi berbagai
informasi lainnya seperti kemungkinan demografi pencari dan kecenderungan bahasa yang
digunakan dapat diketahuikan berdasarkan hasil nilai relation strength tersebut.
Saran
Penelitian ini hanya menggunakan satu metode, sehingga hasil tidak dapat
dibandingkan. Perbandingan dapat dilakukan dengan menggunakan metode yang lain seperti
Metode Latent Semantic Index. Selain itu pembentukan semantic database akan sangat
membantu meningkatkan pengertian dari pasangan kata secara semantik.
Penggunaan text..., Annisa Marlin Masbar Rus, FT UI, 2014
16
Daftar Referensi
Breeding, M. (2013, Juni). Mining data for library decision support. Computers in
Libraries:The Systems Librarian. Vol. 33, No.5, pp. 23-25.
Banchs, R. (2013). Text Mining with matlab. Springer, New York.
Bertnes, Pal A.2000. “New role for academic libraries in scientific information”. Liber
Quarterly, Vol. 10: 326-334.
Chien-Hsing Wu, Tzai-Zang Lee,& Shu-Chen Kao. (2004). Knowledge discovery applied to
material acquisitions for libraries. Information Processing and Management,Vol.40,
709-725.
Depdiknas RI. Direktorat Jenderal Pendidikan Tinggi. 2004. Perpustakaan Perguruan Tinggi:
Buku Pedoman. 3rd ed. Jakarta: Departemen Pendidikan Nasional RI. Direktorat
Jenderal Pendidikan Tinggi.
Frawley, W., Piatestky-Shapiro, G., & Matheus, C. (1991). Knowledge discovery in databases
- an overview . In Knowledge Discovery in Databases 1991 (pp. 1-30). Reprinted in
AlMagazine, Fall 1992.
Hearst, M. (2003). What is text mining?. UC Berkeley: SIMS.
Loughridge, Brendan. 1996. The management information needs of academic Head of
Department in universities in the United Kingdom. Information Research, Vol.2, No.2.
Miner, G. et al. (2012). Practical Text Mining and statistical analysis for no-structured Text
data application. Academic Press, USA.
Manning, C., Raghavan, P., Schütze, H. (2008). Introduction to information retrieval.
Cambridge University Press, UK.
Nisbet, R., Elder, J., Miner, G. (2009). Handbook of statistical analysis and data mining
applications. Academic Press, Canada.
Okerson, Ann. (2013). Text & data Mining - a librarian overview. IFLA WLIC
Shih-Ting Yang. (2012). An active recommendation approach to improve book-acquisition
process. International Journal of Electronic Business Management. Vol. 10, No.2, pp.
163-173.
Soetimah, Perpustakaan, Kepustakawan dan Pustakawan, cet 1, Yogyakarta:Karnisius, 1992,
pp. 32.
Stevens, R., & Agrawal, R. (1997). Who’s number one? Evaluating acquisitions departments.
Library Collections, Acquisitions, and Technical Services, Vol.23, pp. 79-85.
Undang-undang Republik Indonesia Nomor 43 Tahun 2007 tentang Perpustakaan
Penggunaan text..., Annisa Marlin Masbar Rus, FT UI, 2014
17
Penggunaan text..., Annisa Marlin Masbar Rus, FT UI, 2014