analisis link - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/minggu12.pdfdalam satu...
TRANSCRIPT
4/23/13
1
ANALISIS LINK Budi Susanto
Text dan Web Mining - TI UKDW 1
Tujuan • memahami karakteristik link antar laman yang dapat
dimodelkan sebagai graf. • memahami algoritma PageRank • memahami Hubs and Authority
Text dan Web Mining - TI UKDW 2
4/23/13
2
Struktur Web • struktur hypertextual memberikan sebuah jaringan
informasi • node mewakili laman yang berisi informasi • link menyatakan relasi antar node.
• Bentuk hypertextual pertama adalah konsep citation di antara book atau artikel ilmiah. • node mewakili buku/artikel • edge mewakili citation dari satu karya ke lainnya. • perbedaan utama dengan web: citation dikelola lebih kuat berdasar
waktu. • citation mengarah pada karya sebelumnya.
• Bentuk hypertextual lain adalah cross-references dalam ensiklopedia
Text dan Web Mining - TI UKDW 3
Contoh citation hypertextual
Text dan Web Mining - TI UKDW 4
4/23/13
3
Contoh Cross Reference network
Text dan Web Mining - TI UKDW 5
Pemikiran Vannevar Bush • Bush menyatakan bahwa informasi yang tersimpan pada
buku, perpustakaan, atau bahkan memori komputer adalah linear. • berisi koleksi item yang diurutkan dalam urutan tertentu.
• Bush membayangkan sebuah hypothetical prototype, disebut Memex, yang fungsinya serupa dengan Web • berisi bentuk digital dari pengetahuan manusia yang saling
berhubungan dengan associative link.
• Pemikiran tentang Web: • web sebagai ensiklopedia universal, • web sebagai sistem socio-economic raksasa, • web sebagai otak global.
Text dan Web Mining - TI UKDW 6
4/23/13
4
Web sebagai Directed Graph • Tautan navigasi membentuk struktur backbone dari Web,
daripada memperkaya isi. • tautan antar laman Web diterapkan sebagai bentuk graf
berarah, mengingat bentuk tautan dapat bersifat asimetrik. • blog Anda memiliki link ke UKDW, namun tidak tentu UKDW
memiliki link ke blog Anda.
Text dan Web Mining - TI UKDW 7
Contoh Web Directed Graph
Text dan Web Mining - TI UKDW 8
4/23/13
5
Strongly Connected • Sebuah directed graph dikatakan terhubung kuat jika
terdapat sebuah jalur dari setiap node ke setiap node lainnya.
• Contoh pada slide 8 bukanlah directed graph yang terhubung kuat. Mengapa?
• Jika sebuah directed graph tidak terhubung kuat, maka perlu diperhatikan atribut lain, yaitu: reachability. • mengenali node mana saja yang “reachable” dari node lain melalui
jalur-jalur yang terbentuk.
Text dan Web Mining - TI UKDW 9
Strongly Connected Component • SCC dalam directed graph adalah sebuah subset node
sedemikian rupa, sehingga: • setiap node dalam subset memiliki sebuah jalur ke node lainnya,
dan • subset bukan merupakan bagian himpunan yang lebih besar
lainnya dengan properti bahwa setiap node dapat mencapai setiap node lainnya.
Text dan Web Mining - TI UKDW 10
4/23/13
6
Strongly Connected Component
Text dan Web Mining - TI UKDW 11
Link • Link dapat menjadi sumber keaslian dan pengakuan/
otoritas. • mail spam • phone call log • host quality
Text dan Web Mining - TI UKDW 12
?
?
?
? Good Bad
4/23/13
7
Link • Node Good tidak akan menunjuk ke node Bad. • Jika sebuah node menunjuk ke node Bad, maka node
tersebut Bad. • Jika node Good menunjuk sebuah node, maka node
tersebut juga Good.
Text dan Web Mining - TI UKDW 13
? Good Bad
Link dan IR • Sebagian besar sistem IR didasarkan pada isi dari teks. • Link dapat digunakan untuk:
• scoring dan ranking • link-based clustering
• struktur topik dari link • Link sebagai feature dalam klasifikasi
• dokumen yang bertautan dengan dokumen lain dikatakan mungkin dalam satu subjek.
• Crawling menggunakan link untuk mengambil dokumen lainnya.
Text dan Web Mining - TI UKDW 14
4/23/13
8
Web sebagai Directed Graph • Assumption 1: sebuah hyperlink antar halaman
menyatakan sebuah pengakuan otoritas (sinyal kualitas) • Assumption 2: teks dalam anchor dari sebuah hyperlink
mengambarkan halaman sasaran (textual context)
Text dan Web Mining - TI UKDW 15
Page A hyperlink Page B Anchor
Web sebagai Directed Graph • G = (V, E) • G adalah directed graf • V adalah himpunan halaman web • N adalah jumlah halaman web • |V| = N • Jika halaman u memiliki link ke halaman v, maka
Text dan Web Mining - TI UKDW 16
Evu ∈),(
4/23/13
9
Pengindeksan Teks Anchor • Ketika mengindeks dokumen D, teks anchor disertakan
dari link yang menunjuk ke D.
Text dan Web Mining - TI UKDW 17
www.ibm.com
Armonk, NY-based computer giant IBM announced today
Joe’s computer hardware links Sun HP IBM
Big Blue today announced record profits for the quarter
Pengindeksan Teks Anchor • Namun terkadang tidak semua teks anchor adalah benar. • Dapatkah memberi bobot terhadap teks anchor?
• bobot dapat dilakukan dengan memberikan tanda pada setiap halaman yang memiliki teks anchor.
• jika web tersebut dipercaya, misalnya Google, Yahoo!, maka teks anchor memiliki bobot tinggi.
• Aplikasi lainnya • pembobotan terhadap link dalam graf • menghasilkan deskripsi halaman dari teks anchor.
Text dan Web Mining - TI UKDW 18
4/23/13
10
PageRank • Mengukur kualitas dari sebuah halaman web tidak dapat
hanya menggunakan in-links. • Sebuah web page dikatakan memiliki reputasi baik, jika
halaman web bereputasi baik menunjuk web page tersebut.
• PageRank merupakan metode pembobotan setiap halaman dengan nilai antara 0 – 1.
Text dan Web Mining - TI UKDW 19
1=∏∑∈Vv
v 0, ≥∏∀ Vv
PageRank • Setiap halaman web akan memiliki bobot PageRank,
dengan notasi:
• menyatakan: • berapa banyak halaman lain yang menunjuk ke halaman u. • PageRank sebuah halaman adalah jumlah dari semua PageRank
dari setiap halaman yang menunjuk ke halaman tersebut (in-degree).
Text dan Web Mining - TI UKDW 20
U∏
∑∈
∏=∏EVUUV
),(
4/23/13
11
Naïve PageRank • Jika halaman A menunjuk halaman B, A berkontribusi
dari PageRanknya untuk halaman B. • Halaman B mengumpulkan kontribusi dari semua
halaman yang menunjuk ke B, untuk menentukan PageRank B.
Text dan Web Mining - TI UKDW 21
Ad1
A
B
C 1
2
2
=∏+∏+∏
∏+∏=∏
∏=∏
∏=∏
CBA
CAB
BC
BA
Contoh
Text dan Web Mining - TI UKDW 22
A
B
C
A
B
C D
E
A
B
C D
4/23/13
12
Kelemahan Naïve PageRank • vulnerable to collision
• apa yang disebut sebagai link spam. • pada slide 22, node C, D, dan E adalah link spam.
• dapat menghasilkan solusi tak terbatas
• tidak menemukan solusi
Text dan Web Mining - TI UKDW 23
A
B
C P
Q
R
PageRank • Menurut Page dan Brin (1998), untuk menghindari masalah
naïve pagerank, diasumsikan pemakai mengunjungi tautan secara random dengan suatu probability tertentu.
• Nilai λ pada umumnya bernilai 0.85 • P1 adalah probabilitas mengunjungi v dari halaman lain • P2 adalah probabilitas mengunjungi v secara acak
Text dan Web Mining - TI UKDW 24
∏V = P1 +P2
P1 = λ∏U
dU(U,V )∈E∑
$
%&&
'
())
P2 =(1−λ)N
4/23/13
13
PageRank • Karena pada kenyataannya jumlah halaman web yang
dihitung sangatlah banyak, maka dilakukan pendekatan iteratif untuk setiap nilai PageRank halaman.
• Dalam tiap iterasi, digunakan formula: • p(k+1) = p(k) * H
• p adalah vektor PageRank tiap halaman web • Untuk inisialisasi, p(0), digunakan nilai 1/n untuk tiap
halaman. • n adalah jumlah halaman dalam graf.
• kemudian dilakukan perulangan sampai nilai perbedaan antar kedua vektor terakhir cukup kecil. • ditentukan dengan sebuah threshold.
Text dan Web Mining - TI UKDW 25
PageRank • Untuk mencegah adanya hasil PageRank adalah 0 jika
ditemukan adanya dangling nodes, maka matrix teleporation H, harus diubah dengan langkah: • Buat matrix untuk Dangling Node
• dij = 0 jika Hij > 0 • dij = 1 jika Hij = 0
• Update matrix H dengan G (Google) Matrix:
• matrix eT adalah vektor berisi 1.
Text dan Web Mining - TI UKDW 26
TeN
edHH 1))1(( λλλ −++=
transporter
4/23/13
14
PageRank: Contoh
Text dan Web Mining - TI UKDW 27
A
B
C
D
0 1/3 1/3 1/3
0 0 ½ ½
1 0 0 0
0.5 0 0.5 0
H=
Non Zero baris ke-i menunjukkan outlinking page dari halaman ke-i. Non Zero kolom ke-j menunjukkan inlinking page dari halaman ke-j.
PageRank: Contoh
Text dan Web Mining - TI UKDW 28
dangling=
0
0
0
0
e=
1
1
1
1
eT= 1 1 1 1
G = λH + (λd + (1−λ)e) 1NeT
0.04 0.32 0.32 0.32
0.04 0.04 0.46 0.46
0.89 0.04 0.04 0.04
0.46 0.04 0.46 0.04
G=
4/23/13
15
PageRank: Contoh
Text dan Web Mining - TI UKDW 29
p0=
0.25
0.25
0.25
0.25
p1=
0.25
0.25
0.25
0.25
0.04 0.32 0.32 0.32
0.04 0.04 0.46 0.46
0.89 0.04 0.04 0.04
0.46 0.04 0.46 0.04
0.2479
0.2500
0.2500
0.2500
=
|p1-p0| = abs(0.2479-0.25)+ abs(0.25-0.25)+ abs(0.25-0.25)+ abs(0.25-0.25)=0.0021
PageRank: Contoh
Text dan Web Mining - TI UKDW 30
p2=
0.04 0.32 0.32 0.32
0.04 0.04 0.46 0.46
0.89 0.04 0.04 0.04
0.46 0.04 0.46 0.04
0.2478
0.2499
0.2481
0.2490
=
0.2479
0.2500
0.2500
0.2500
|p2-p1| = abs(0.2478-0.2479)+ abs(0.2499-0.25)+ abs(0.2481-0.25)+ abs(0.249-0.25)=0.0030
Sehingga p1 adalah vektor v* (equilibrium value) yang merupakan nilai PageRank untuk tiap halaman yang diharapkan.
4/23/13
16
Algoritma HITS • HITS singkatan dari Hypertext Induced Topic Search. • Ketika pemakai memberikan query, HITS pertama akan
mendapatkan hasil dokumen yang relevan dengan query oleh mesin pencari dan menghasilkan 2 rangking: • authority ranking • hub ranking
• Authority adalah sebuah halaman dengan in-links • Hub adalah sebuah halaman dengan out-links.
Text dan Web Mining - TI UKDW 31
HITS
Text dan Web Mining - TI UKDW 32
AT&T Alice ITIM Bob O2
Mobile telecom companies
Hubs
Authorities
4/23/13
17
Algoritma HITS
Text dan Web Mining - TI UKDW 33
Contoh HITS
Text dan Web Mining - TI UKDW 34
A
B
C
0 0 1
0 0 1
0 0 0
A=
0 0 0
0 0 0
1 1 0
AT=
u=
1
1
1
4/23/13
18
Contoh HITS
Text dan Web Mining - TI UKDW 35
v= AT.u = 1
1
1
0 0 0
0 0 0
1 1 0
= 0
0
2
Update vector hub
u= A.v = 0
0
2
0 0 1
0 0 1
0 0 0
= 2
2
0
Halaman C paling authoritative, sedangkan A, dn B hub penting.
TERIMA KASIH budi susanto
Text dan Web Mining - TI UKDW 36