menggunakan vietspider crawler

11
Tugas Rekayasa Mesin Pencari - 090411100123 1 Nama : Okie Maria A NRP : 090411100123 Vietspider Crawler Pengenalan Vietspider Crawler Software Vietspider ini dikembangkan menggunakan platform Java sehingga program dapat berjalan pada berbagai komputer baik komputer pribadi ataupun komputer server. Vietspider juga dapat dijalankan pada sistem operasi yang berbeda seperti Windows, Linux, Solaris, Mac OS, dll. Vietspider dapat mengindeks dan manajemen database dalam penyimpanan data. Memiliki solusi semi-otomatis dalam menganalisis dan memperbaiki data yang dapat diakses oleh administrator secara jarak jauh. Vietspider juga dapat menjadi solusi yang tepat dan cepat untuk pencarian dan data browsing internet saat ini karena dilenkapi dengan sistem analisis Semantic untuk klasifikasi otomatis dan menghubungkan konten terkait. Cara kerja VietSpider Pada Intinya cara kerja Vietspider ini sama dengan software lainnya yaitu mengambil intisari dari suatu web dengan cara copy paste link web yang ingin di crawler. Lalu selanjutnya proses akan berlangsung dengan pengambilan berita tanpa ada sponsor dan segala sesuatu yang tidak penting, yang ada hanya konten dan isinya setelah itu isi dari website tersebut kita ambil inti yang diperlukan saja. Hasil akhirnya dapat diubah dalam bentuk SVM dan Exel. Proses Inastalasi VietSpider

Upload: okie-moet

Post on 18-Dec-2014

53 views

Category:

Documents


1 download

DESCRIPTION

viet spider crawler merupakan salah satu crawler yang digunakan untuk mengumpulkan berita dari internet

TRANSCRIPT

Page 1: Menggunakan Vietspider Crawler

Tugas Rekayasa Mesin Pencari - 090411100123 1

Nama : Okie Maria ANRP : 090411100123

Vietspider Crawler

Pengenalan Vietspider Crawler

Software Vietspider ini dikembangkan menggunakan platform Java sehingga program dapat berjalan

pada berbagai komputer baik komputer pribadi ataupun komputer server. Vietspider juga dapat dijalankan

pada sistem operasi yang berbeda seperti Windows, Linux, Solaris, Mac OS, dll. Vietspider dapat

mengindeks dan manajemen database dalam penyimpanan data. Memiliki solusi semi-otomatis dalam

menganalisis dan memperbaiki data yang dapat diakses oleh administrator secara jarak jauh. Vietspider juga

dapat menjadi solusi yang tepat dan cepat untuk pencarian dan data browsing internet saat ini karena

dilenkapi dengan sistem analisis Semantic untuk klasifikasi otomatis dan menghubungkan konten terkait.

Cara kerja VietSpider

Pada Intinya cara kerja Vietspider ini sama dengan software lainnya yaitu mengambil intisari dari suatu web

dengan cara copy paste link web yang ingin di crawler. Lalu selanjutnya proses akan berlangsung dengan

pengambilan berita tanpa ada sponsor dan segala sesuatu yang tidak penting, yang ada hanya konten dan

isinya setelah itu isi dari website tersebut kita ambil inti yang diperlukan saja. Hasil akhirnya dapat diubah

dalam bentuk SVM dan Exel.

Proses Inastalasi VietSpider

Page 2: Menggunakan Vietspider Crawler

Tugas Rekayasa Mesin Pencari - 090411100123 2

Sebelum menjalankan software Vietspider komputer harus memiliki instalan java (JDK atau JRE) minimum

versi 1.6 atau yang lebih tinggi. VietSpider adalah perangkat lunak yang tidak perlu menginstal, hanya unzip

paket download dan menjalankan program. Gambar berikut menampilkan semua file dan folder setelah

unzip paket VietSpider :

1. Buka folder VietSpider3_19_XML_Windows , lalu akan muncul beberapa file seperti dibawah ini lalu

double klik pada file VietSpider

2. Lalu akan muncul tampilan untuk mengisi server dan username di komputer namun biasanya form ini

akan terisi secara otomatis oleh komputer. Langsung saja klik Connect

3. Jika proses kedua berhasil maka akan muncul tampilan seperti di bawah ini

2

1

3

Page 3: Menggunakan Vietspider Crawler

Tugas Rekayasa Mesin Pencari - 090411100123 3

Katerangan :

1 = Alamat dari sistem server yang mengakses.

2 = Ikon menyajikan fungsi program-program

3 = Beberapa fitur tambahan dari program ini.

Keterangan Menu Pada VietSpider

· Browse Content

Bagian ini memberikan cara-cara mengakses data yang di crawler setelah itu

dapat di eksport dalam bentuk excel ataupun CSV.

· Create New Channel

Bagian ini untuk membuat channel atau website baru yang menjadi tujuan

untuk di crawler. Hanya tinggal copy paste link website lalu klik Next dan

ikuti petunjuk selanjutnya

· Crawler

Pada bagian ini seluruh proses crawler dapat di pantau. Mulai dari memulai

crawler, menghapus hingga prosesnya.

· Logs

Logs disini berfungsi seperti history atau catatan apa saja yang telah terjadi.

· Configuration

Konfigurasi pengaturan pada menu software Vietspider

Proses Crawler Website Menggunakan VietSpider

1. Jalankan VietSpider, dengan cara double klik pada pada file VietSpider dan akan muncul gambar

seperti ini

Page 4: Menggunakan Vietspider Crawler

Tugas Rekayasa Mesin Pencari - 090411100123 4

2. Klik pada Tools, pilih Channel Store seperti gambar dibawah ini

3. Setelah itu masukkan link alamat yang diinginkan pada Form Start Page dan otomatis akan terisi

dengan sendirinya di Channel Name.

4. Pilih salah satu page untuk dijadikan sample.

Copy data link dari sample tersebut dengan klik kanan > Copy data link dan lakukan paste pada form

Sample Data Page. Otomatis data pada Data Link Pattern terisi

Page 5: Menggunakan Vietspider Crawler

Tugas Rekayasa Mesin Pencari - 090411100123 5

5. Setelah itu pada form Data Link Pattern klik kanan dan pilih Use as Link Pattern

Setelah itu tampilan pada form Data Link Pattern akan berubah seperti dibawah ini. Mengapa? Karena

sistem membuat Pola Data Link dengan merubah angka menjadi tanda “*” dan huruf menjadi tanda

“@”

Setelah itu klik tanda + untuk menambahkan pola lalu klik Extract Data dan tunggu hingga proses

selesai.

Gambar proses ekstraksi selesai

1

2

Page 6: Menggunakan Vietspider Crawler

Tugas Rekayasa Mesin Pencari - 090411100123 6

6. Buatlah title sesuai dengan data apa yang akan diambil dengan mengetikkan di pojok bawah kiri.

Setelah membuat Title lalu masukkan HTML yang sesuai dengan title tersebut. Setelah pengelompokan

selesai maka klik Finish

7. Tampilan akan kembali ke tampilan awal. Namun proses belum selesai sampai disini. Masih lanjut lagi

dengan menekan Save setelah itu tombol Verify

Page 7: Menggunakan Vietspider Crawler

Tugas Rekayasa Mesin Pencari - 090411100123 7

8. Tunggu beberapa saat untuk proses Verifikasi lalu akan muncul seperti gambar dibawah ini

9. Setelah itu klik icon Tools di pojok kiri bawah dan pilih Crawler untuk proses crawler.

Page 8: Menggunakan Vietspider Crawler

Tugas Rekayasa Mesin Pencari - 090411100123 8

10. Untuk menambahkan halaman yang sudah di save tadi klik Crawl Channel dan akan muncul seperti

dibawah ini. Lalu carilah username yang tadi disimpan dan klik Add Source setelah itu Close.

Setelah itu otomatis web kamu akan berada di link sebelah kanan.

Ada baiknya menghapus terlebih dahulu jika terdapat link lain dengan menekan Remove Channel

11. Setelah itu tekan Start Crawling yang berwarna biru dan proses crawling pun dimulai, akan tampak

seperti gambar dibawah ini.

Tunggulah beberapa saat hingga muncul tulisan end session

Page 9: Menggunakan Vietspider Crawler

Tugas Rekayasa Mesin Pencari - 090411100123 9

12. Klik kembali Tools yang berada di kiri bawah Vietspider, lalu pilih Browse Content untuk melihat

hasilnya

13. Akan keluar satu halaman web yang kita crawler termasuk link yang terdapat di dalamnya. Kita dapat

mengeksport dalam bentuk CSV dan Exel dengan menekan Eksport Data di bawah sebelah kanan.

Page 10: Menggunakan Vietspider Crawler

Tugas Rekayasa Mesin Pencari - 090411100123 10

Hasil bentuk Exel dan CSV

Kelebihan dan Kekurangan Vietspider

Kelebihan :

Ø Mudah dan efisien dalam penggunaannya

Ø Terdapat fitur Help yang sangat membantu

Ø File akhir dapat eksport dalam bentuk CSV dan Exel

Ø Mendukung berbagai platform

Ø Tidak perlu mengistal dalam komputer hanya klik lalu jalankan

Ø Dapat mengeset waktu untuk mengcrawler ulang

Page 11: Menggunakan Vietspider Crawler

Tugas Rekayasa Mesin Pencari - 090411100123 11

Ø Dapat menentukan Deep atau kedalaman crawler suatu website

Kekurangan :

Ø Hasil akhir kurang rapi