penggunaan text mining pada pengadaan buku di …

1

Penggunaan Text Mining pada Pengadaan Buku di Perpustakaan Universitas

Indonesia

Annisa Marlin Masbar Rus , Isti Surjandari

Departemen Teknik Industri, Fakultas Teknik, Universitas Indonesia, Depok, 16424

[email protected]

Abstrak

Pengadaan buku melakukan penyeleksian kebutuhan topik berdasarkan rekomendasi dosen,

beberapa mahasiswa, maupun pustakawan sendiri. Sumber ini dianggap kurang menyeluruh,

sehingga dibutuhkan sumber informasi lain, yaitu kata kunci pencarian buku. Penelitian ini

dilakukan di Perpustakaan Universitas Indonesia dengan menggunakan salah satu dari metode

text mining, yaitu metode Latent Relation Discovery untuk menemukan nilai relation strength

dengan memperhitungkan kemunculan bersamaan dan jarak antara kata. Hasil dari penelitian

menemukan 126 pasangan kata atau topik kata kunci pencarian dan 56 topik yang sesuai

dengan topik buku pinjaman dan 2 topik yang sesuai dengan topik buku yang akan diadakan,

sehingga 58 topik kemudian diajukan. Jika dibandingkan dengan hanya melihat frekuensi

kata, topik ini dapat memberikan informasi yang lebih spesifik. Namun jika dibandingkan

dengan topik pada buku pinjaman dan daftar pengadaan buku, topik kata kunci menjadi

terlalu umum dan terbatas pada kata yang muncul.

Kata Kunci :

Text mining, metode Latent Relation Discovery, nilai relation strength, pengadaan buku, topik

buku.

Use of Text Mining in Book Acquisition in University of Indonesia Library

Abstract

Books acquisition usually do the screening needs of topics based on lecturer recommendations, some students,

and librarian themselves. These sources are considered less comprehensive, thus other sources of information is

needed, that is keyword. This research was conducted at the University of Indonesia Library using one of the

methods of text mining, the method of Latent Relation Discovery, to find relations strength value by considering

the emergence of concurrence and distance between words. The results of the study found 126 pairs of words or

topic from keyword and 56 topics that fit with the topic of the borrowed book and the 2 topics that match the

topics to the book that is recommended. Rather than simply considering frequency of the words, this topic can

provide more specific information, but when it compared with the topics from the loan book and textbook

acquisition list, these topics become too common and limited to words that appear.

Keywords :

Text mining, Latent Relation Discovery method, relation strength value, books acquisition, book topics.

Penggunaan text..., Annisa Marlin Masbar Rus, FT UI, 2014

mailto:[email protected]

2

Pendahuluan

Kebanyakan pustakawan melakukan penambahan buku berdasarkan rekomendasi dari

pustakawan sendiri, beberapa pengguna, fakultas, dosen dan para penjual buku

(Stevens,1999). Sistem usulan pengadaan seperti inilah yang kemudian juga digunakan oleh

Perpustakaan UI untuk membuat keputusan pengadaan buku baru. Namun, koleksi-koleksi ini

dihasilkan dari preferensi individu dan bukan dari pengamatan secara keseluruhan atau

global. Pada akhirnya informasi ini dianggap tidak cukup dapat diandalkan (Wu et al, 2004).

Oleh karena itu dibutuhkannya deksripsi permintaan dan pencarian kebutuhan buku dari

pengamatan secara global.

Penerapan teknologi informasi pada perpustakaan UI memungkinkan para

penggunanya untuk mencari banyak hal pada halaman websitenya. Pengguna dapat mencari

lokasi dan ketersediaan koleksi dengan memasukkan kata kunci pencarian pada kolom

pencarian di halaman website ini. Tanpa membutuhkan pengiriman surat rekomendasi dari

para penggunanya, perpustakaan dapat pula menggunakan kata kunci pencarian ini untuk

menemukan topik buku yang dicari dan dibutuhkan oleh kebanyakan para pengguna secara

global. Namun, jumlah kata kunci pencarian ini mencapai lebih dari 10.000 masukan setiap

bulannya. Menurut Breeding (2013), dengan menggunakan metode yang sesuai data dalam

jumlah yang besar ini dapat digunakan, sehingga menghasilkan informasi yang berguna bagi

perpustakaan. Salah satu metode yang dapat mengetahui informasi tersembunyi dari data

dalam jumlah besar ini adalah data mining.

Berfokus pada bagian pengadaan di Perpustakaan UI dalam melakukan

pengembangan koleksi untuk dapat meningkatkan kepuasan pengguna terhadap ketersediaan

buku yang relevan, text mining digunakan untuk menemukan kata kunci topik pada kumpulan

kata kunci pencarian yang dimasukkan oleh pengguna perpustakaan. Metode text mining yang

digunakan adalah metode LRD untuk menentukan hubungan antar kata yang dianggap

memiliki keterkaitan yang tinggi dan dapat membentuk topik yang relevan. Selain itu

perpustakaan UI belum menggunakan kata kunci ini untuk menentukan topik, padahal dengan

mengetahui kata kunci topik, daftar pengadaan buku dapat dibentuk berdasarkan pencarian

atau kebutuhan dari kebanyakan pengguna. Sehingga pustakawan dapat mengadakan buku,

baik berupa penambahan buku yang telah ada atau penambahan buku untuk topik baru, yang

sesuai dengan kebutuhan kebanyakan pengguna. Hal ini akan berdampak baik bagi kepuasan

pengguna dan meningkatkan penggunaan teknologi informasi pada perpustakaan.


3

Tinjauan Teoritis

Perpustakaan Perguruan Tinggi

Perpustakaan perguruan tinggi ini sendiri menurut Hasugian (2009) adalah sebuah

perpustakaan atau sistem perpustakaan yang dibangun, diadministrasikan dan didanai oleh

sebuah universitas untuk memenuhi kebutuhan informasi, penelitian dan kurikulum dari

mahasiswa, fakultas dan stafnya. Berbagai pengertian tentang perpustakaan tinggi lainnya

secara umum menyatakan bahwa perpustakaan merupakan sumber informasi bagi institusi

pendidikan perguruan tinggi untuk menjalankan fungsinya dalam melakukan pembelajaran,

penelitian dan pengajaran.

Pengembangan Koleksi

Perpustakaan memiliki tugas untuk melakukan pengembangan koleksi agar koleksi

buku tetap sesuai dengan perkembangan zaman dan dapat memenuhi kebutuhan

penggunanya. Siregar (2008) dalam hal ini juga mengatakan bahwa pengembangan koleksi

adalah prioritas utama perpustakaan. Menurut Sulistyo (1991) bentuk pengembangan koleksi

dapat dilakukan dengan mengusahakan bahan-bahan yang belum di miliki perpustakaan atau

bisa juga berupa penambahan bahan pustaka yang masih kurang. Secara umum proses

pengembangan koleksi ini mencakup prosess penghimpunan dan penyeleksian bahan yang

kemudian dijadikan koleksi, dengan harapan koleksi ini sesuai, lengkap dan aktual dengan

kebutuhan para pengguna (Sumantri, 2002).

Text Mining

Menurut Miner et al (2012), text mining adalah istilah umum yang menggambarkan

berbagai teknologi yang dapat menganalisis dan memproses data teks yang bersifat semi

terstruktur (semistructured) dan tidak terstruktur (unstructured). Hal ini lah yang kemudian

membedakannya dengan data mining karena ia mengolah data yang bersifat terstruktur.

Tujuan dari text mining adalah untuk menemukan arti semantik atau maksud dari teks

berdasarkan susunan kata-kata atau teks yang disebut sintkasis. Proses pengolahan data teks

pada text mining sebenarnya adalah proses pengolahan teks dengan mengubahnya menjadi

data dalam bentuk numerik agar dapat diolah oleh program secara otomatis. Hal inilah yang

membuat text mining menghabiskan 80-90% usaha dan waktu pada praproses datanya.


4

Praproses Teks

Praproses teks ini dilakukan dengan tujuan untuk mengurangi kemungkinan terjadinya

kesalahan makna yang terbentuk dari hasil perhitungan. Karena teks dibentuk untuk

dimengerti oleh manusia dan kemampuan untuk memahami teks seperti halnya otak manusia

bekerja masih sangat sulit untuk di lakukan (Hearst, 2003). Berikut ini adalah kegiatan

praproses yang dilakukan.

a. Menentukan ruang lingkup atau satuan teks yang akan diproses. Penentuan ini dilakukan

berdasarkan tujuan dari text mining. Misalnya untuk fungsi klasifikasi atau kluster, satuan

teks yang cocok adalah satuan per dokumen, sedangkan untuk proses sentiment analysis

atau pencarian informasi (information retrieval), satuan teks dalam bentuk paragraf atau

unit yang lebih kecil akan lebih relevan.

b. Tokenization, yaitu sebuah proses yang memecah semua teks menjadi satuan kata yang

disebut token, dengan mempertimbangkan spasi dan tanda baca. Sedangkan untuk

akronim atau singkatan seperti K.P.K, smart tokenization dapat digunakan untuk

menghindari pembentukan token K.P.K menjadi K, P, dan K.

c. Menghilangkan kata-kata yang umum atau yang lebih dikenal dengan istilah stopwords.

Penghapusan kata-kata ini untuk satuan teks seperti dokumen tidak akan memberikan

dampak hilangnya informasi pada teks, karena berdasarkan perhitungan algoritma kata-

kata ini tidak memiliki pengaruh yang besar terhadap hasil akhir. Bahkan hal ini akan

mempercepat pemprosesan data. Kecuali bagi unit teks yang lebih kecil seperti paragraf

atau frase, karena hal ini akan membuatnya kehilangan maksud jika kata-kata ini

dihapuskan.

d. Menormalisasi semua kata-kata agar menjadi kata asal dengan menghilangkan imbuhan

pada kata yang disebut proses stemming. Proses ini akan membantu fungsi klasifikasi,

kulster atau indeks pencarian dalam meningkatkan keakurasian hasil dengan

mengelompokkan kata-kata tersebut berdasarkan konsep.

e. Menormalisasi ejaan, mencakup pembenaran ejaan yang salah atau berbeda sehingga

dapat menghindari penambahan token kata yang memiliki arti yang sama. Hal ini sering

kali terjadi pada bahasa inggris Amerika dan Inggris seperti kata color dan colour yang

memiliki arti yang sama, yaitu warna.

f. Mendeteksi batasan kalimat, yaitu seperti membagi data dalam bentuk paragraf menjadi

penggalan-penggalan kalimat agar mempermudah proses in identifikasi kata, tetapi bukan

menjadi satuan teks. Hal ini berlaku untuk data dalam bentuk paragraf, dokumen atau

bentuk data lain yang terdiri lebih dari satu kalimat.


5

g. Menormalisasi huruf besar dan kecil. Agar perhitungan kata memiliki keseragaman

bentuk untuk memudahkan proses identifikasi oleh program. Semua kata dinormalisasi

dengan cara mengubah bentuk semua kata menjadi huruf besar atau huruf kecil.

Metode Latent Relation Discovery (LRD)

Bertujuan untuk meningkatkan pemahaman hubungan antar kata yang tersembunyi.

Goncalves et al (2006) memperkenalkan metode Latent Relation Discovery untuk melakukan

pekerjaan dalam bidang information retrieval pada teks. Metode LRD ini menggabungkan

pertimbangan kemunculan kata secara bersamaan dan jarak antar kata untuk menentukan

hubungan antar kata yang disebut relation strength. Setiap kata yang ditargetkan akan

dihitung dan diurutkan berdasarkan relation strengthnya. Dalam pengaplikasiannya metode

LRD merupakan metode machine learning yang tidak membutuhkan data latihan dalam

penggunaannya atau disebut unsupervised learning, sehingga dapat memperkecil sifat

kelemahan dari metode supervised learning.

Pendekatan ini melakukan perhitungan pada tiga aspek, yaitu:

a. Kemunculan secara bersamaan (co-occurence).

Suatu kata dikatakan muncul secara bersamaan jika mereka muncul pada satuan

teks yang sama, satuan ini dapat berupa dokumen atau jendela kata (text window) yang

kecil. Jika kata tersebut berada pada satuan kata yang berbeda, maka kata tidak dikatakan

muncul secara bersaman. Secara umum, kata akan dikatakan memiliki hubungan yang

dekat jika ia cenderung untuk muncul secara bersamaan. Untuk menormalkan hubungan

antar kata ini, frekuensi relatif dari kemunculan secara bersamaan ini dapat didefinisikan

sebagai berikut.

( ) ( )

(1)

Di mana Num(W1,W2) adalah jumlah kemunculan kata W1 dan W2 secara

bersamaan, dan N adalah jumlah total kalimat pada corpus.

b. Jarak (distance)

Asumsi pada perhitungan ini adalah bahwa dua kata yang memiliki jarak yang

dekat cenderung memiliki relasi yang dekat pula. Jika kata W1 dan W2 muncul sekali


6

pada dokumen yang sama, maka jarak W1 dan W2 adalah selisih hitungan kata yang ada

diantara keduanya. Ketika kata W1 dan W2 muncul berkali-kali di dalam dokumen yang

sama, maka perhitungannya akan mengikuti definisi berikut,

( ) ∑ ( )

( ) (2)

Dimana fi(W1) adalah jumlah kemunculan W1 sebagai target kata pada dokumen

ke-i, min (W1j, W2) adalah jarak minimum antara kemunculan W1, W1j, dan W2. Secara

umum, mi(W1,W2) tidak sama dengan mi(W2,W1). Hal ini dikarenakan perbedaan target

kata utama.

c. Kekuatan hubungan (relation strength)

Kekuatan hubungan antara kata memasukkan pertimbangan co-occurence, rata-rata

jarak, dan frekuensi kemunculan secara bersamaan di dalam dokumen dengan persamaan

(3). Semakin besar jaraknya maka semakin kecil hubungan antar kata tersebut. Penentuan

target kata utama juga akan memberikan hasil perhitungan yang berbeda, sehingga

perhitungan kekuatan hubungan dengan target utama W1 dan W2 akan berbeda.

( ) ( ) ∑ ( ( ( )) ( ( ))

( )) (3)

Dimana ( ( )) = tfidfi (W1), ( ( )) = tfidfi (W2), dan

( ) dan ( ) adalah jumlah masing-masing kemunculan W1 dan W2

pada dokumen ke-i. Nilai term frequency and inverted document frequency atau dikenal

dengan tfidf didefinisikan sebagai berikut.

( ) ( ) (

) (4)

( ) ( )

( ( )) (5)

Dimana ( ) adalah frekuensi kata j pada dokumen ke-i yang dinormalisasi

dengan frekuensi maksimum dari semua kata pada dokumen ke-i. Sedangkan N adalah

jumlah seluruh dokumen dan dfj adalah jumlah dokumen yang mengandung kata j.


7

Metode Penelitian

Tahapan Penelitian

Penelitian ini dimulai dengan menentukan terlebih dahulu tujuan penelitian yang

diinginkan serta metode yang digunakan untuk memenuhi tujuan. Kemudian pengumpulan

data berupa daftar kata kunci pencarian selama 7 bulan (September 2013 – Maret 2014)

dikumpulkan dari server Perpustakaan UI untuk dicari pasangan hubungan antar katanya agar

membentuk topik. Praproses teks lalu dilakukan dengan menghapuskan tanda baca dan

imbuhan (stopword), menyamaratakan ukuran huruf, menentukan penggalan kalimat dan

satuan teks, memotong-motong kalimat menjadi kata per kata (tokenization) serta

menormalisasi ejaan sehingga membentuk term-document matrix. Melalui metode LRD

didapatkan nilai relation strength pasangan kata yang telah mempertimbangkan kemunculan

secara bersamaan dan jarak antar katanya. Setelah itu pasangan kata ini diurutkan berdasarkan

nilai relation strength tertinggi dan di prioritaskan berdasarkan kontribusinya terhadap 80%

dari keseluruhan nilai relation strength. Untuk menemukan pasangan kata yang sesuai agar

dapat direkomendasikan, pasangan kata atau topik ini kemudian disamakan dengan pasangan

kata atau topik yang didapatkan dari judul buku yang telah dipinjam. Diasumsikan

kemunculan topik yang sama diantara keduanya menunjukkan buku tersebut telah dipinjam

dan ditemukan. Selain itu turnratio dari topik buku (durasi pinjam dalam hari/topik buku)

juga dihitung untuk memperlihatkan tingkat kepentingan buku. Kemudian topik pencarian

yang tidak sama dengan topik buku pinjam disamakan dengan topik buku rekomendasi yang

didapatkan dari judul buku yang direkomendasikan. Sisa topik buku pencarian yang tidak

sama dengan topik rekomendasi dan buku pinjam kemudian dijadikan topik buku usulan

untuk pengadaan Perpustakaan Universitas Indonesia.

Subjek dan Objek Penelitian

Penelitian ini difokuskan pada koleksi buku cetak. Pada dasarnya koleksi buku yang

dimiliki Perpustakaan Universitas Indonesia mencakup buku cetak, buku elektronik, skripsi,

thesis dan disertasi.

Peralatan yang Digunakan

Alat bantu software utama yang digunakan dalam penelitian ini adalah Matrix

Laboratory (MATLAB) versi R2013a dan Microsoft Office Access untuk membantu

pengolahan data.


8

Hasil Penelitian

Hasil dari penelitian yang dilakukan adalah berupa daftar pasangan kata atau topik

yang diprioritaskan berdasarkan 80% kontribusinya, yaitu sebagai berikut pada Tabel 1.

Tabel 1 Nilai Relation Strength Topik Kata Kunci Pencarian

No. Word 1 (W1) Word 2 (W2) Nilai Relation Strength W1-W2

1 humaniora lmusosial 508,1066

2 kedokteran kesehatan 183,7388

3 good governance 144,3515

4 laporan keuangan 105,6485

5 sains teknologi 104,2611

6 public relations 77,93853

7 kinerja keuangan 74,97789

8 kinerja perawat 66,44654

9 bahasa indonesia 51,81653

10 perlindungan konsumen 45,6367

11 kepuasan kerja 43,77982

12 kebijakan implementasi 42,68887

13 corporate governance 34,09462

14 media sosial 33,69365

15 audit internal 30,39703

16 harga saham 30,33838

17 modal pasar 29,63369

18 konsep diri 28,24634

19 corporate good 26,94741

20 keuangan manajemen 26,57022

21 kasus studi 26,1353

22 keselamatan kerja 25,93629

23 manajemen risiko 24,26839

24 kepuasan pasien 22,69443

25 hukum pidana 22,5712

26 kerja perawat 22,19273

27 kesehatan kerja 21,98212

28 pemasaran strategi 21,926

29 kesehatan keselamatan 21,02968

30 budaya organisasi 20,98418

31 kualitas hidup 20,37334

32 kepatuhan pajak 20,18006

33 teknologi informasi 20,16061

34 koleksi perpustakaan 19,75602

35 bank syariah 19,30393

36 kesehatan masyarakat 19,30293


9

No. Word 1 (W1) Word 2 (W2) Nilai Relation Strength W1-W2

37 ilmu perpustakaan 18,97548

38 komunikasi strategi 18,73487

39 kualitas pelayanan 18,7321

40 status gizi 17,75678

41 ibu hamil 17,67212

42 metode penelitian 17,56511

43 kinerja karyawan 16,47905

44 pengetahuan sikap 16,14198

45 gaya kepemimpinan 14,95036

46 kinerja perusahaan 14,70764

47 tindak pidana 14,43776

48 pengetahuan perilaku 14,16886

49 pelayanan kesehatan 13,88975

50 bahasa jepang 13,4509

51 demam berdarah 13,29331

52 kinerja pegawai 13,26401

53 tenaga kerja 13,17437

54 akuntansi sisteminformasi 13,11456

55 hubungan pengetahuan 12,88008

56 ekonomi makro 12,51761

57 anak jalanan 12,16496

58 gagal ginjal 12,07756

59 kebijakan publik 11,6949

Kemudian setelah disamakan dengan topik buku pinjam didapatkan 56 daftar topik

dengan 10 topik utama seperti pada Tabel 2 beserta dengan nilai turnrationya.

Tabel 2 Nilai Relation Strength dan Turnratio untuk Topik Pencarian yang Sama dengan

Buku Pinjaman

No. Word 1 Word 2 Relation Strength Turn ratio (hari/topik)

1 kedokteran kesehatan 183,74 80,78

2 good governance 144,35 24,44

3 laporan keuangan 105,65 59,24

4 public relations 77,94 10,54

5 bahasa indonesia 51,82 21,22

6 perlindungan konsumen 45,64 70,64

7 kebijakan implementasi 42,69 48,94

8 corporate governance 34,09 41,24

9 media sosial 33,69 13,14

10 modal pasar 29,63 52,52

Tabel 1 Nilai Relation Strength Kata Kunci Topik (lanjutan)


10

Lalu topik pencarian yang tidak sama disamakan dengan topik buku rekomendasi

yang menghasilkan hanya 2 topik yang sama, yaitu “kasus studi” dan “sektor publik” dengan

nilai relation stength masing-masing sebesar 26,135 dan 5,975. Kemudian topik yang tidak

sama dengan topik buku yang dipinjam dan buku rekomendasi menjadi topik buku usulan

untuk pengadaan buku di Perpustakaan UI pada saat penyeleksian buku. Daftar topik tersebut

adalah seperti Tabel 3 berikut.

Tabel 3. Daftar Topik yang Direkomendasikan

No. Word 1 Word 2 Nilai Relation Strength

1 humaniora Ilmusosial 508,11

2 sains teknologi 104,26

3 kinerja keuangan 74,98

4 kinerja perawat 66,45

5 kepuasan kerja 43,78

6 audit internal 30,4

7 harga saham 30,34

8 konsep diri 28,25

9 keselematan kerja 25,94

10 kepuasan pasien 22,69

11 kerja perawat 22,19

12 kerja kesehatan 21,98

13 kesehatan keselamatan 21,03

14 budaya organisasi 20,98

15 kualitas hidup 20,37

16 kepatuhan pajak 20,18

17 koleksi perpustakaan 19,76

18 strategi komunikasi 18,73

19 kualitas pelayanan 18,73

20 status gizi 17,76

21 ibu hamil 17,67

22 kinerja karyawan 16,48

23 pengetahuan sikap 16,14

24 gaya kepemimpinan 14,95

25 pengetahuan perilaku 14,17

26 demam berdarah 13,29

27 kinerja pegawai 13,26

28 akuntansi sisteminformasi 13,11

29 hubungan pengetahuan 12,88

30 anak jalanan 12,16


11

No. Word 1 Word 2 Nilai Relation Strength

31 gagal ginjal 12,08

32 kinerja kerja 11,52

33 motivasi belajar 11,41

34 input output 11,13

35 gawat darurat 10,17

36 asi eksklusif 10,07

37 evaluasi kebijakan 9,87

38 pelaksana perawat 9,3

39 tingkat pengetahuan 9,14

40 hubungan perawat 8,61

41 ibu pengetahuan 8,56

42 dki jakarta 8,29

43 return saham 8,08

44 gambaran pengetahuan 7,33

45 kepuasan pelayanan 7,14

46 evaluasi program 7,12

47 pasien rawat 6,66

48 anak ibu 6,27

49 pasien tingkat 6,05

50 rasio keuangan 5,27

51 kinerja penilaian 5,22

52 dukungan keluarga 5,2

53 kepuasan perawat 5,02

54 dana pensiun 5,02

55 perencanaan strategis 4,78

56 rawat inap 4,75

57 wajib pajak 4,74

58 jaminan kesehatan 4,48

59 nilai tukar 4,23

60 tugas akhir 3,9

61 bayi prematur 3,88

62 status ekonomi 2,56

63 manajemen laba 2,46

64 audit komite 2,44

65 gizi balita 2,23

66 stress kerja 2,11

67 tingkat kecemasan 1,91

68 pemberian asi 0,94

Tabel 3.6. Daftar Topik yang Direkomendasikan (lanjutan)


12

Pembahasan

Analisa Topik Buku Pencarian

Penelitian ini bertujuan untuk menemukan hubungan antara dua kata dari kata kunci

pencarian buku di website Perpustakaan UI yang kemudian dapat diinterpretasikan sebagai

masukan topik bagi penyeleksian pengadaan buku. Hubungan kedua kata ini dilihat dengan

menghitung nilai relation strength antara dua kata dengan mempertimbangkan kemunculan,

jarak dan susunan kata pada teks entri kata kunci.

Nilai ini memiliki rentang nilai mulai dari 0 hingga ∞. Hal ini dikarenakan nilai

disesuaikan dengan jumlah keseluruhan unit teks (yaitu jumlah entri) dan kata yang ada di

dalam teks. Semakin tinggi nilai relasi ini maka semakin dekat jarak antara kedua kata dan

sering pula kedua kata tersebut muncul pada entri kata kunci. Hal ini menunjukkan bahwa

hubungan kedua kata tersebut semakin sesuai. Sebaliknya, semakin kecil nilai relasinya maka

kedua kata tersebut berada pada jarak yang cukup jauh dan tidak sering muncul pada entri.

Hal ini menunjukkan bahwa hubungan kedua kata semakin kurang sesuai. Sehingga keeratan

hubungan kata dilihat dari tingkat nilai relation strength tersebut.

Jika perpustakaan hanya mengambil informasi dari entri kata kunci yang memiliki

frekuensi tertinggi untuk mengetahui kebutuhan topik pengguna. Maka informasi yang

didapatkan tidak cukup untuk menunjukkan kebutuhan topik secara umum yang dicari oleh

pengguna. Hal ini dikarenakan kata yang digunakan oleh pengguna terlalu spesifik dan kata

hanya dikumpulkan berdasarkan kesamaan kata secara keseluruhan. Misalnya seperti kata

korban yang muncul sebanyak 132 kali, tetapi tidak memberikan gambaran kebutuhan. Jika

nilai relation strength dihitung, maka hubungan dua kata yang memiliki hubungan yang kuat

dapat ditemukan dan makna kata menjadi lebih umum, sehingga kata menjadi lebih sesuai

untuk dijadikan rekomendasi topik.

Berdasarkan perhitungan ditemukan bahwa pasangan kata atau topik “Humaniora

Ilmu Sosial” dengan nilai relation strength tertinggi sebesar 508,106. Berdasarkan nilai ini

dapat diasumsikan bahwa kebanyakan pengguna kemungkinan berasal dari Fakultas Ilmu

Sosial dan Ilmu Politik ataupun Fakultas Ilmu Pengetahuan Budaya, karena kata topik atau

pasangan kata ini sering sekali muncul hingga menjadikannya kata yang sangat sesuai untuk

terus muncul secara bersamaan.

Informasi yang diberikan oleh pasangan kata ini lebih menyeluruh bagi berbagai jenis

kata kunci pencarian yang dimasukkan. Sedangkan jika perpustakaan hanya melihat


13

kebutuhan topik dari frekuensi kemunculan entri terbanyak atau kata terbanyak, maka

informasi yang didapatkan akan berbeda. Kata yang paling banyak muncul pada data kata

kunci pencarian adalah kata “Indonesia” dengan jumlah frekuensi sebesar 9020, diikuti oleh

kata “manajemen” (8300), “kesehatan” (7890), “hukum” (7530) dan “kinerja” (6750).

Sedangkan pasangan kata topik yang diperoleh menunjukkan bahwa topik dibidang

Humaniora dan Ilmu Sosial memiliki hubungan yang lebih erat dari pasangan kata yang

lainnya. Hal ini dapat disebabkan oleh kemunculan kata “Indonesia” memiliki variasi yang

cukup besar pada kemunculan pasangan kata daripada kata “Humaniora”. Variasi kata

“Indonesia” muncul dengan urutan pasangan kata “sejarah Indonesia” dengan nilai relation

6,868 dan “sistem Indonesia” dengan nilai 3,644. Sedangkan kata “Humaniora” dan “Ilmu

Sosial” selalu muncul bersamaan. Sehingga dapat disimpulkan bahwa kata dengan frekuensi

tertinggi pada dasarnya terlalu umum dan memiliki pasangan kata yang sangat bervariasi,

dikarenakan kata pencarian yang dimasukkan mungkin terlalu spesifik. Namun, dengan

mengetahui nilai relation strengthnya, topik yang lebih mengerucut dapat diketahui.

Selain itu, berdasarkan data daftar topik dapat disimpulkan juga bahwa kecenderungan

topik berasal dari ranah ilmu sosial, ilmu budaya, ilmu ekonomi dan lainnya. Sedangkan

kemunculan kata kunci topik dalam Bahasa Inggris juga cenderung dibawah 5% dari

keseluruhan kata kunci pencarian. Sehingga dapat dilihat pula bahwa kecenderungan

pengguna masih mencari buku dalam Bahasa Indonesia.

Analisa Topik Peminjaman Buku

Pasangan kata dari kata kunci pencarian yang sama dengan pasangan kata pada buku

pinjaman pada penelitian ini merepresentasikan bahwa judul buku dengan topik tersebut

tersedia dan telah dipinjam oleh pengguna. Sebaliknya, jika pasangan kata tersebut tidak

sama, maka kemungkinan ketidaktersediannya buku yang mengandung topik tersebut terjadi.

Kemungkinan lainnya adalah buku dengan topik tersebut sedang dipinjam oleh seseorang

selama tujuh bulan, sesuai dengan durasi pengambilan data. Di mana kemungkinan terakhir

ini kecil terjadi.

Sebelumnya perhitungan terhadap nilai turn ratio telah dihitung pada bab sebelumnya,

di mana semakin kecil nilai turnratio suatu kata maka semakin kecil pula durasi dalam

hitungan hari judul buku dengan topik tersebut dipinjam, seperti yang terjadi pada pasangan

kata “manajemen risiko” dengan nilai 0,62. Hal ini terjadi karena buku tersebut sering

dipinjam dalam durasi hari yang hanya sebentar dan dikarenakan buku tersebut bisa saja tidak

sesuai dengan kebutuhan pengguna sehingga buku langsung dikembalikan, atau buku tersebut


14

memiliki banyak peminat sehingga penambahan buku dibutuhkan. Tingkat peminat ini

kemudian dapat dilihat dari nilai relations strength, di mana semakin tinggi nilai ini maka

semakin sering pula pasangan kata ini dicari, erat hubungannya dan sesuai sebagai topik.

Sebaliknya, jika nilai turnratio lebih dari 14 hari atau 2 minggu, maka topik tersebut

dapat dipinjam dalam waktu yang cukup lama. Hal ini dapat disebabkan karena variasi buku

dengan topik tersebut cukup banyak, sehingga ketersediaan buku yang ada dapat dipinjam

dalam waktu yang cukup lama. Begitu juga sebaliknya untuk nilai relation strengthnya.

Berdasarkan nilai relation strength, topik buku “kedokteran kesehatan” memiliki

intensitas kemunculan yang tinggi pada jarak yang dekat, sehingga menjadikannya kata yang

sangat erat hubungannya. Tetapi, nilai turn ratio pasangan kata ini melebihi batas hari

peminjaman pada umumnya suatu buku dipinjam. Sehingga hal ini menunjukkan bahwa judul

buku dengan topik tersebut hanya dipinjam beberapa kali dalam waktu yang lama. Berbeda

halnya dengan topik “manajemen resiko” yang memiliki nilai turnratio yang kecil dengan

nilai relation strength sebesar 24,27. Hal ini menunjukkan bahwa topik tersebut tidak cukup

sering dicari.

Sehingga kemudian dapat disimpulkan bahwa pasangan kata yang diperoleh dari

basis data kata kunci pencarian dan memiliki nilai relations strength cukup tinggi cenderung

bersifat umum jika dibandingkan dengan pasangan kata yang diperoleh dari judul buku yang

dipinjam. Hal inilah yang kemudian membuat pasangan kata yang memiliki nilai relations

strength tertinggi tidak memiliki kesamaan pada basis data judul buku yang telah dipinjam.

Analisa Topik Pengadaan Buku

Topik dari basis data pencarian yang tidak sesuai dengan basis data kata kunci buku

yang telah dipinjam kemudian disamakan kembali dengan basis data kata kunci pengadaan

buku. Hal ini bertujuan untuk melihat kecocokan data kata kunci topik yang dibentuk dengan

data kata kunci pengadaan yang telah dibentuk. Jika terjadi kesamaan, maka kata kunci topik

buku yang dicari tersebut dapat dijadikan prioritas untuk diadakan terlebih dahulu.

Sebesar 70% judul buku yang akan diajukan untuk diadakan dicetak dalam bahasa

Inggris, sedangkan hampir 80% entri kata kunci yang digunakan untuk mencari buku dan

judul buku yang dipinjam berbahasa Indonesia. Hal ini menunjukkan bahwa pengguna

Perpustakaan UI masih cenderung melakukan pencarian dan meminjam buku dalam Bahasa

Indonesia. Sehingga kesamaan topik sulit untuk ditemukan.

Kesamaan dari kata kunci topik dan kata kunci pengadaan kemudian hanya terjadi

pada kata “studi kasus” dan “sektor publik” dengan nilai relation sebesar 26,135 dan 5,975.


15

Kemungkinan yang terjadi sehingga kesamaan topik hanya terjadi pada dua kata ini

dikarenakan pasangan kata ini cenderung bersifat lebih umum, sedangkan judul buku

cenderung lebih spesifik. Selain itu pasangan kata yang diperoleh juga terbatas pada kata yang

hanya muncul pada corpus tersebut.

Kesimpulan

Kebutuhan topik pengguna dapat dianalisis melalui data entri kata kunci pencarian

pengguna. Perhitungan nilai relation strength dengan menggunakan metode Latent Relation

Dicovery (LRD) memungkinkan perpustakaan untuk dapat mengetahui topik yang dicari oleh

pengguna secara lebih khusus ataupun umum. Selain itu, metode ini juga merupakan metode

yang tidak membutuhkan latihan data (training data) atau bersifat unsupervised. Disamping

itu kata yang diperoleh hanya terbatas dari kata yang muncul pada dokumen, sehingga hasil

pasangan kata cenderung lebih spesifik.

Terdapat 59 pasangan kata atau topik yang diprioritaskan pada kata kunci pencarian,

56 pasangan kata yang sesuai dengan pasangan kata buku pinjaman dan 2 pasangan kata yang

sesuai dengan pasangan kata buku yang ingin diadakan. Sehingga dihasilkan 58 topik yang

dapat dijadikan pertimbangan untuk melakukan pengadaan buku. Jika dibandingkan dengan

hanya melihat frekuensi kata, pasangan kata ini dapat memberikan informasi yang lebih

spesifik dan memiliki makna semantik yang sesuai. Namun, jika dibandingkan dengan topik

pada buku pinjaman dan topik buku rekomendasi, topik kata kunci pencarian menjadi

cenderung lebih umum dan terbatas pada kata yang muncul di pencarian. Tetapi berbagai

informasi lainnya seperti kemungkinan demografi pencari dan kecenderungan bahasa yang

digunakan dapat diketahuikan berdasarkan hasil nilai relation strength tersebut.

Saran

Penelitian ini hanya menggunakan satu metode, sehingga hasil tidak dapat

dibandingkan. Perbandingan dapat dilakukan dengan menggunakan metode yang lain seperti

Metode Latent Semantic Index. Selain itu pembentukan semantic database akan sangat

membantu meningkatkan pengertian dari pasangan kata secara semantik.


16

Daftar Referensi

Breeding, M. (2013, Juni). Mining data for library decision support. Computers in

Libraries:The Systems Librarian. Vol. 33, No.5, pp. 23-25.

Banchs, R. (2013). Text Mining with matlab. Springer, New York.

Bertnes, Pal A.2000. “New role for academic libraries in scientific information”. Liber

Quarterly, Vol. 10: 326-334.

Chien-Hsing Wu, Tzai-Zang Lee,& Shu-Chen Kao. (2004). Knowledge discovery applied to

material acquisitions for libraries. Information Processing and Management,Vol.40,

709-725.

Depdiknas RI. Direktorat Jenderal Pendidikan Tinggi. 2004. Perpustakaan Perguruan Tinggi:

Buku Pedoman. 3rd ed. Jakarta: Departemen Pendidikan Nasional RI. Direktorat

Jenderal Pendidikan Tinggi.

Frawley, W., Piatestky-Shapiro, G., & Matheus, C. (1991). Knowledge discovery in databases

- an overview . In Knowledge Discovery in Databases 1991 (pp. 1-30). Reprinted in

AlMagazine, Fall 1992.

Hearst, M. (2003). What is text mining?. UC Berkeley: SIMS.

Loughridge, Brendan. 1996. The management information needs of academic Head of

Department in universities in the United Kingdom. Information Research, Vol.2, No.2.

Miner, G. et al. (2012). Practical Text Mining and statistical analysis for no-structured Text

data application. Academic Press, USA.

Manning, C., Raghavan, P., Schütze, H. (2008). Introduction to information retrieval.

Cambridge University Press, UK.

Nisbet, R., Elder, J., Miner, G. (2009). Handbook of statistical analysis and data mining

applications. Academic Press, Canada.

Okerson, Ann. (2013). Text & data Mining - a librarian overview. IFLA WLIC

Shih-Ting Yang. (2012). An active recommendation approach to improve book-acquisition

process. International Journal of Electronic Business Management. Vol. 10, No.2, pp.

163-173.

Soetimah, Perpustakaan, Kepustakawan dan Pustakawan, cet 1, Yogyakarta:Karnisius, 1992,

pp. 32.

Stevens, R., & Agrawal, R. (1997). Who’s number one? Evaluating acquisitions departments.

Library Collections, Acquisitions, and Technical Services, Vol.23, pp. 79-85.

Undang-undang Republik Indonesia Nomor 43 Tahun 2007 tentang Perpustakaan


17


penggunaan text mining pada pengadaan buku di …

Documents