web crawling dan similarities empat website ecommerce di indonesia

Business Intelligence Web Crawling dan Similarities

Empat Website Ecommerce di Indonesia

Canggih Pramono Gultom

1006826295

1. Tujuan

Dokumen ini adalah tugas dan sekaligus percobaan untuk penggunaan software RapidMiner sebagai alat

untuk melakukan pemrosesan data berbentuk teks yang diambil dari sumber web. Ada empat list web site

yang akan digunakan sebagai sumber data, dimana website tersebut merupakan beberapa ecommerce

yang berada di Indonesia antara lain:

a. Tokobagus (http://www.tokobagus.com/)

b. Blibli (http://www.blibli.com/)

c. BukaLapak (https://www.bukalapak.com/)

d. Rakuten (http://www.rakuten.co.id/)

Tujuan dari tugas ini adalah :

a) Pengenalan terhadap RapidMiner.

b) Pengenalan terhadap Text Processing

c) Pengenalan terhadap Web Mining.

2. Syarat Teknis

Peralatan yang digunakan sebagai software utama adalah RapidMiner. Dalam percobaan dibawah ini

penulis tidak menggunakan software yang lain.

Rapid Miner

URL : http://rapid-i.com/content/view/181/190/

Publisher : Rapid I

Category : Data Mining

Description

Rapid Miner adalah software yang dikembangkan oleh Rapid-I, sebuah perusahaan yang bergerak di

bidang predictive analytics, data mining dan text mining. Rapid Miner adalah salah satu produk dari

Rapid-I yang dikembangkan mulai dari tahun 2001 dan akhirnya berlisensi AGPL sejak tahun 2004.

http://www.tokobagus.com/

http://www.blibli.com/

https://www.bukalapak.com/

http://www.rakuten.co.id/

3. Metodologi Percobaan

Dalam melakukan percobaan ada beberapa tahap yang harus dilakukan setelah pengumpulan data selesai

dilakukan tahapan tersebut adalah :

1. Proses Pembacaan Web Links

2. Pengambilan Source Web

3. Pengolahan Data ke Document

4. Pemrosesan Document

5. Pemrosesan Similarities

Dalam melakukan tahapan diatas ada beberapa plugin yang harus kita update untuk dapat melakukan

pengolahan data dan smilirarities antara lain Text Processing dan Web Mining.

4. Implementasi 1. Proses Pembacaan Web Links

Pertama kita mendaftarkan semua link yang akan kita olah pada dokumen excel sehingga

nantinya dapat dibaca oleh RapidMiner.

Untuk menggunakan import file Excel pertama kita buka RapidMiner lalu pada Operator kita

ketik Read untuk menggunakan extension “Read Excel” yang sudah tersedia.

Setelah list dari ekstension muncul maka pilih ekstension Read Excel ke dalam panel yang sudah

ada dapat didragdrop atau diklik dua kali.

Defenisikan file Excel pada menu import konfigurasi wizard,

Tekan tombol import dan configuration wizard untuk melakukan import file Excel dan ikuti

petunjuk untuk menekan tombol next sampai finish.

Tekan tombol untuk menjalankan operator.

2. Proses Pembacaan Web Links

Rapid Miner perlu untuk mengakses web pages yang sudah di define via HTTP processing.

Di sinilah extension “Get Pages” akan digunakan.

Option yang terutama akan digunakan adalah menghubungkan atribut yang sudah ditetapkan

dalam “Read Excel” ke extension “Get Pages” dengan set “Link Attribute” ke dalam value

“Links”. Value links adalah heading dari excel yang kita buat sebelumnya.

Ekstensi dari “Get Pages” akan dimasukkan ke dalam panel yang dihubungkan pada note

read Excel. Tekan tombol untuk menjalankan operator.

3. Pengolahan data kepada document

Data yang didapatkan akan diolah menjadi suatu dokumen yang dapat dimengerti oleh

Rapidminer. Dokumen ini akan dikumpulkan yang nantinya akan diparsing atau dipilah –

pilah untuk mendapatkan kemiripan kata atau sintaks yang digunakan oleh web.

Operator dari “Data to Document” akan dimasukkan ke dalam panel yang dihubungkan

pada note read Excel.Tekan tombol untuk menjalankan operator.

4. Pemrosesan Document

Setelah document didapatkan maka kita akan melakukan pemrosesan document yang akan

memisahkan setiap kata dengan menggunakan 3 elemen yaitu :

i. Tokenization

ii. Transforming

iii. Filter Stopwords

Setelah operators ditekan makan akan dihubungkan Node proses dokument dengan data document.

Tekan pada untuk memasukkan token untuk memproses setiap dokumen yang telah kita simpan.

Vector creation tersebut antara lain :

Tekan tombol untuk menjalankan operator.

5. Pemrosesan Similarities

Untuk memproses persamaan antara satu objek dengan yang lain setelah setiap kata kita

parsing digunakan data to similarities. Ada 2 pilihan yang bisa digunakan yaitu Numerical

Measures dan Cosine Similarity.

Setelah operators ditekan makan akan dihubungkan Node data to similarity dengan proses

document. Tekan tombol untuk menjalankan operator.

6. Implementasi Setelah semua proses dilakukan oleh RapidMiner maka akan dihasilkan suatu tabel yang memberikan

gambaran hubungan kesamaan yang dimiliki oleh website antara satu dengan yang lain. Berikut label

yang digunakan untuk memberikan hasil dari analisis.

a. Tokobagus (http://www.tokobagus.com/)

b. Blibli (http://www.blibli.com/)

c. BukaLapak (https://www.bukalapak.com/)

d. Rakuten (http://www.rakuten.co.id/)

Dari gambar terlihat hubungan antara setiap website ecommerce dapat kita simpulkan berdasarkan tabel

berikut ini.

Dari tabel dapat kita simpulkan bahwa website Blibli (2.0) dan Rakuten indonesia memiliki kemiripan

atau kesamaan paling tinggi dengan 0.15 similarity.

http://www.tokobagus.com/

http://www.blibli.com/

https://www.bukalapak.com/

http://www.rakuten.co.id/

web crawling dan similarities empat website ecommerce di indonesia

Documents