web crawling dan similarities empat website ecommerce di indonesia
DESCRIPTION
Web Crawling dan Similarities Empat Website Ecommerce di IndonesiaTRANSCRIPT
Business Intelligence Web Crawling dan Similarities
Empat Website Ecommerce di Indonesia
Canggih Pramono Gultom
1006826295
1. Tujuan
Dokumen ini adalah tugas dan sekaligus percobaan untuk penggunaan software RapidMiner sebagai alat
untuk melakukan pemrosesan data berbentuk teks yang diambil dari sumber web. Ada empat list web site
yang akan digunakan sebagai sumber data, dimana website tersebut merupakan beberapa ecommerce
yang berada di Indonesia antara lain:
a. Tokobagus (http://www.tokobagus.com/)
b. Blibli (http://www.blibli.com/)
c. BukaLapak (https://www.bukalapak.com/)
d. Rakuten (http://www.rakuten.co.id/)
Tujuan dari tugas ini adalah :
a) Pengenalan terhadap RapidMiner.
b) Pengenalan terhadap Text Processing
c) Pengenalan terhadap Web Mining.
2. Syarat Teknis
Peralatan yang digunakan sebagai software utama adalah RapidMiner. Dalam percobaan dibawah ini
penulis tidak menggunakan software yang lain.
Rapid Miner
URL : http://rapid-i.com/content/view/181/190/
Publisher : Rapid I
Category : Data Mining
Description
Rapid Miner adalah software yang dikembangkan oleh Rapid-I, sebuah perusahaan yang bergerak di
bidang predictive analytics, data mining dan text mining. Rapid Miner adalah salah satu produk dari
Rapid-I yang dikembangkan mulai dari tahun 2001 dan akhirnya berlisensi AGPL sejak tahun 2004.
3. Metodologi Percobaan
Dalam melakukan percobaan ada beberapa tahap yang harus dilakukan setelah pengumpulan data selesai
dilakukan tahapan tersebut adalah :
1. Proses Pembacaan Web Links
2. Pengambilan Source Web
3. Pengolahan Data ke Document
4. Pemrosesan Document
5. Pemrosesan Similarities
Dalam melakukan tahapan diatas ada beberapa plugin yang harus kita update untuk dapat melakukan
pengolahan data dan smilirarities antara lain Text Processing dan Web Mining.
4. Implementasi 1. Proses Pembacaan Web Links
Pertama kita mendaftarkan semua link yang akan kita olah pada dokumen excel sehingga
nantinya dapat dibaca oleh RapidMiner.
Untuk menggunakan import file Excel pertama kita buka RapidMiner lalu pada Operator kita
ketik Read untuk menggunakan extension “Read Excel” yang sudah tersedia.
Setelah list dari ekstension muncul maka pilih ekstension Read Excel ke dalam panel yang sudah
ada dapat didragdrop atau diklik dua kali.
Defenisikan file Excel pada menu import konfigurasi wizard,
Tekan tombol import dan configuration wizard untuk melakukan import file Excel dan ikuti
petunjuk untuk menekan tombol next sampai finish.
Tekan tombol untuk menjalankan operator.
2. Proses Pembacaan Web Links
Rapid Miner perlu untuk mengakses web pages yang sudah di define via HTTP processing.
Di sinilah extension “Get Pages” akan digunakan.
Option yang terutama akan digunakan adalah menghubungkan atribut yang sudah ditetapkan
dalam “Read Excel” ke extension “Get Pages” dengan set “Link Attribute” ke dalam value
“Links”. Value links adalah heading dari excel yang kita buat sebelumnya.
Ekstensi dari “Get Pages” akan dimasukkan ke dalam panel yang dihubungkan pada note
read Excel. Tekan tombol untuk menjalankan operator.
3. Pengolahan data kepada document
Data yang didapatkan akan diolah menjadi suatu dokumen yang dapat dimengerti oleh
Rapidminer. Dokumen ini akan dikumpulkan yang nantinya akan diparsing atau dipilah –
pilah untuk mendapatkan kemiripan kata atau sintaks yang digunakan oleh web.
Operator dari “Data to Document” akan dimasukkan ke dalam panel yang dihubungkan
pada note read Excel.Tekan tombol untuk menjalankan operator.
4. Pemrosesan Document
Setelah document didapatkan maka kita akan melakukan pemrosesan document yang akan
memisahkan setiap kata dengan menggunakan 3 elemen yaitu :
i. Tokenization
ii. Transforming
iii. Filter Stopwords
Setelah operators ditekan makan akan dihubungkan Node proses dokument dengan data document.
Tekan pada untuk memasukkan token untuk memproses setiap dokumen yang telah kita simpan.
Vector creation tersebut antara lain :
Tekan tombol untuk menjalankan operator.
5. Pemrosesan Similarities
Untuk memproses persamaan antara satu objek dengan yang lain setelah setiap kata kita
parsing digunakan data to similarities. Ada 2 pilihan yang bisa digunakan yaitu Numerical
Measures dan Cosine Similarity.
Setelah operators ditekan makan akan dihubungkan Node data to similarity dengan proses
document. Tekan tombol untuk menjalankan operator.
6. Implementasi Setelah semua proses dilakukan oleh RapidMiner maka akan dihasilkan suatu tabel yang memberikan
gambaran hubungan kesamaan yang dimiliki oleh website antara satu dengan yang lain. Berikut label
yang digunakan untuk memberikan hasil dari analisis.
a. Tokobagus (http://www.tokobagus.com/)
b. Blibli (http://www.blibli.com/)
c. BukaLapak (https://www.bukalapak.com/)
d. Rakuten (http://www.rakuten.co.id/)
Dari gambar terlihat hubungan antara setiap website ecommerce dapat kita simpulkan berdasarkan tabel
berikut ini.
Dari tabel dapat kita simpulkan bahwa website Blibli (2.0) dan Rakuten indonesia memiliki kemiripan
atau kesamaan paling tinggi dengan 0.15 similarity.