menggunakan vietspider crawler
DESCRIPTION
viet spider crawler merupakan salah satu crawler yang digunakan untuk mengumpulkan berita dari internetTRANSCRIPT
Tugas Rekayasa Mesin Pencari - 090411100123 1
Nama : Okie Maria ANRP : 090411100123
Vietspider Crawler
Pengenalan Vietspider Crawler
Software Vietspider ini dikembangkan menggunakan platform Java sehingga program dapat berjalan
pada berbagai komputer baik komputer pribadi ataupun komputer server. Vietspider juga dapat dijalankan
pada sistem operasi yang berbeda seperti Windows, Linux, Solaris, Mac OS, dll. Vietspider dapat
mengindeks dan manajemen database dalam penyimpanan data. Memiliki solusi semi-otomatis dalam
menganalisis dan memperbaiki data yang dapat diakses oleh administrator secara jarak jauh. Vietspider juga
dapat menjadi solusi yang tepat dan cepat untuk pencarian dan data browsing internet saat ini karena
dilenkapi dengan sistem analisis Semantic untuk klasifikasi otomatis dan menghubungkan konten terkait.
Cara kerja VietSpider
Pada Intinya cara kerja Vietspider ini sama dengan software lainnya yaitu mengambil intisari dari suatu web
dengan cara copy paste link web yang ingin di crawler. Lalu selanjutnya proses akan berlangsung dengan
pengambilan berita tanpa ada sponsor dan segala sesuatu yang tidak penting, yang ada hanya konten dan
isinya setelah itu isi dari website tersebut kita ambil inti yang diperlukan saja. Hasil akhirnya dapat diubah
dalam bentuk SVM dan Exel.
Proses Inastalasi VietSpider
Tugas Rekayasa Mesin Pencari - 090411100123 2
Sebelum menjalankan software Vietspider komputer harus memiliki instalan java (JDK atau JRE) minimum
versi 1.6 atau yang lebih tinggi. VietSpider adalah perangkat lunak yang tidak perlu menginstal, hanya unzip
paket download dan menjalankan program. Gambar berikut menampilkan semua file dan folder setelah
unzip paket VietSpider :
1. Buka folder VietSpider3_19_XML_Windows , lalu akan muncul beberapa file seperti dibawah ini lalu
double klik pada file VietSpider
2. Lalu akan muncul tampilan untuk mengisi server dan username di komputer namun biasanya form ini
akan terisi secara otomatis oleh komputer. Langsung saja klik Connect
3. Jika proses kedua berhasil maka akan muncul tampilan seperti di bawah ini
2
1
3
Tugas Rekayasa Mesin Pencari - 090411100123 3
Katerangan :
1 = Alamat dari sistem server yang mengakses.
2 = Ikon menyajikan fungsi program-program
3 = Beberapa fitur tambahan dari program ini.
Keterangan Menu Pada VietSpider
· Browse Content
Bagian ini memberikan cara-cara mengakses data yang di crawler setelah itu
dapat di eksport dalam bentuk excel ataupun CSV.
· Create New Channel
Bagian ini untuk membuat channel atau website baru yang menjadi tujuan
untuk di crawler. Hanya tinggal copy paste link website lalu klik Next dan
ikuti petunjuk selanjutnya
· Crawler
Pada bagian ini seluruh proses crawler dapat di pantau. Mulai dari memulai
crawler, menghapus hingga prosesnya.
· Logs
Logs disini berfungsi seperti history atau catatan apa saja yang telah terjadi.
· Configuration
Konfigurasi pengaturan pada menu software Vietspider
Proses Crawler Website Menggunakan VietSpider
1. Jalankan VietSpider, dengan cara double klik pada pada file VietSpider dan akan muncul gambar
seperti ini
Tugas Rekayasa Mesin Pencari - 090411100123 4
2. Klik pada Tools, pilih Channel Store seperti gambar dibawah ini
3. Setelah itu masukkan link alamat yang diinginkan pada Form Start Page dan otomatis akan terisi
dengan sendirinya di Channel Name.
4. Pilih salah satu page untuk dijadikan sample.
Copy data link dari sample tersebut dengan klik kanan > Copy data link dan lakukan paste pada form
Sample Data Page. Otomatis data pada Data Link Pattern terisi
Tugas Rekayasa Mesin Pencari - 090411100123 5
5. Setelah itu pada form Data Link Pattern klik kanan dan pilih Use as Link Pattern
Setelah itu tampilan pada form Data Link Pattern akan berubah seperti dibawah ini. Mengapa? Karena
sistem membuat Pola Data Link dengan merubah angka menjadi tanda “*” dan huruf menjadi tanda
“@”
Setelah itu klik tanda + untuk menambahkan pola lalu klik Extract Data dan tunggu hingga proses
selesai.
Gambar proses ekstraksi selesai
1
2
Tugas Rekayasa Mesin Pencari - 090411100123 6
6. Buatlah title sesuai dengan data apa yang akan diambil dengan mengetikkan di pojok bawah kiri.
Setelah membuat Title lalu masukkan HTML yang sesuai dengan title tersebut. Setelah pengelompokan
selesai maka klik Finish
7. Tampilan akan kembali ke tampilan awal. Namun proses belum selesai sampai disini. Masih lanjut lagi
dengan menekan Save setelah itu tombol Verify
Tugas Rekayasa Mesin Pencari - 090411100123 7
8. Tunggu beberapa saat untuk proses Verifikasi lalu akan muncul seperti gambar dibawah ini
9. Setelah itu klik icon Tools di pojok kiri bawah dan pilih Crawler untuk proses crawler.
Tugas Rekayasa Mesin Pencari - 090411100123 8
10. Untuk menambahkan halaman yang sudah di save tadi klik Crawl Channel dan akan muncul seperti
dibawah ini. Lalu carilah username yang tadi disimpan dan klik Add Source setelah itu Close.
Setelah itu otomatis web kamu akan berada di link sebelah kanan.
Ada baiknya menghapus terlebih dahulu jika terdapat link lain dengan menekan Remove Channel
11. Setelah itu tekan Start Crawling yang berwarna biru dan proses crawling pun dimulai, akan tampak
seperti gambar dibawah ini.
Tunggulah beberapa saat hingga muncul tulisan end session
Tugas Rekayasa Mesin Pencari - 090411100123 9
12. Klik kembali Tools yang berada di kiri bawah Vietspider, lalu pilih Browse Content untuk melihat
hasilnya
13. Akan keluar satu halaman web yang kita crawler termasuk link yang terdapat di dalamnya. Kita dapat
mengeksport dalam bentuk CSV dan Exel dengan menekan Eksport Data di bawah sebelah kanan.
Tugas Rekayasa Mesin Pencari - 090411100123 10
Hasil bentuk Exel dan CSV
Kelebihan dan Kekurangan Vietspider
Kelebihan :
Ø Mudah dan efisien dalam penggunaannya
Ø Terdapat fitur Help yang sangat membantu
Ø File akhir dapat eksport dalam bentuk CSV dan Exel
Ø Mendukung berbagai platform
Ø Tidak perlu mengistal dalam komputer hanya klik lalu jalankan
Ø Dapat mengeset waktu untuk mengcrawler ulang
Tugas Rekayasa Mesin Pencari - 090411100123 11
Ø Dapat menentukan Deep atau kedalaman crawler suatu website
Kekurangan :
Ø Hasil akhir kurang rapi