Transcript
Page 1: Perbandingan distribusi frekuensi kata bahasa Indonesia di Kompas, Wikipedia, Twitter, dan Kaskus

Perbandingan distribusi frekuensi kata bahasa Indonesia di Kompas,

Wikipedia, Twitter, dan Kaskus

Ivan Lanin, Jim Geovedi, Wicak Soegijoko

Ardwort, http://ardwort.com

Page 2: Perbandingan distribusi frekuensi kata bahasa Indonesia di Kompas, Wikipedia, Twitter, dan Kaskus

Latar belakang

• Apa kata yang paling sering dipakai dalam bahasa Indonesia?

• Berapa jumlah huruf per kata yang paling sering dipakai dalam bahasa Indonesia?

• Apakah ragam bahasa menentukan pemilihan kata?

• Bagaimana pola distribusi frekuensi penggunaan kata?

2

Page 3: Perbandingan distribusi frekuensi kata bahasa Indonesia di Kompas, Wikipedia, Twitter, dan Kaskus

Sumber data

Korpus Sumber data Jumlah kata unik

Jumlah kata total

Kompas (media massa)

Diambil pada bulan Januari tahun 2013 untuk artikel berita berbahasa Indonesia daring tahun 2012

343.532 32.724.503

Wikipedia (ensiklopedia)

Diambil dari salinan Wikipedia bahasa Indonesia bulan Januari tahun 2013

936.288 43.545.242

Twitter (mikroblog)

Diambil pada bulan Januari tahun 2013 untuk percakapan bulan Oktober-Desember 2012 oleh pengguna Twitter yang berlokasi di Indonesia

798.078 34.769.573

Kaskus (forum)

Diambil pada bulan Januari tahun 2013 dan dari 1000 utas (thread) terakhir sub-forum The Lounge

761.795 109.292.156

3

Page 4: Perbandingan distribusi frekuensi kata bahasa Indonesia di Kompas, Wikipedia, Twitter, dan Kaskus

Metodologi

Scraping (Kompas, Kaskus)

Ekstrasi XML (Wikipedia)

Kueri API (Twitter)

Pengambilan Kode HTML

URL

Pola acu

Tanda baca

Pembersihan Python

NLTK

NumPy

SciPy

Ramisch (2012): f = Cw(•) / N

Zipf (1932): f = k/r

Pengolahan

4

Page 5: Perbandingan distribusi frekuensi kata bahasa Indonesia di Kompas, Wikipedia, Twitter, dan Kaskus

Peringkat frekuensi kemunculan *

# Kompas Wikipedia Twitter Kaskus

1 yang yang di gan

2 di dan yg ane

3 dan di ya di

4 ini pada aku yang

5 itu dari yang yg

6 dengan dengan ini ya

7 untuk ini itu ada

8 dari adalah ada itu

9 dalam dalam d tuh

10 akan untuk aja aja

# Kompas Wikipedia Twitter Kaskus

11 pada kategori ga bisa

12 tidak tahun dan juga

13 juga sebagai gak kalo

14 ke oleh i keren

15 tersebut indonesia mau ga

16 ada ke ke banget

17 bisa the udah nya

18 saat ia lagi wah

19 jakarta tidak kalo nih

20 tahun menjadi the jadi

5

* Data lengkap: https://github.com/ardwort/freq-dist-id

Page 6: Perbandingan distribusi frekuensi kata bahasa Indonesia di Kompas, Wikipedia, Twitter, dan Kaskus

Analisis frekuensi kemunculan

Kompas Wikipedia Twitter Kaskus

• akan (#10): hal-hal di masa depan

• Jakarta (#19): tempat

• tahun (#20): waktu

• adalah (#8): deskriptif

• the (#17): nama diri • kategori (#11):

kategorisasi artikel

• aku (#4); mau (#15): subjektif

• yg (#2); d (#9); ga (#11): pemendekan

• aja (#10); gak (#13); udah (#17); kalo (#19): percakapan

• i (#14): campur kode atau alih kode

• gan (#1); ane (#2): pronomina persona khas komunitas

• yg (#5); ga (#15): pemendekan

• kalo (#13); banget (#16): percakapan

• tuh (#9); wah (#18); nih (#19), keren (#14): ekspresif

• nya (#17): partikel

6

Page 7: Perbandingan distribusi frekuensi kata bahasa Indonesia di Kompas, Wikipedia, Twitter, dan Kaskus

Distribusi frekuensi kemunculan

Hukum Zipf: f = k/r

7

Page 8: Perbandingan distribusi frekuensi kata bahasa Indonesia di Kompas, Wikipedia, Twitter, dan Kaskus

Perbandingan frekuensi kemunculan

• Perbandingan: Tala (2003)

• yang dan di: empat korpus

• ada, dan, ini, itu, dan ke: tiga korpus

8

Page 9: Perbandingan distribusi frekuensi kata bahasa Indonesia di Kompas, Wikipedia, Twitter, dan Kaskus

Distribusi jumlah huruf per kata

• Distribusi Gauss condong ke kiri (kata pendek)

• Kompas: 5 huruf • Wikipedia: 4 huruf • Twitter: 4 huruf • Kaskus: 3 huruf • Dorongan meminimalkan

waktu & upaya (Piantadosi, 2011)

9

Page 10: Perbandingan distribusi frekuensi kata bahasa Indonesia di Kompas, Wikipedia, Twitter, dan Kaskus

Kesimpulan dan pengembangan

• Kesimpulan: – Kata yang tersering dipakai umumnya merupakan partikel – Jumlah huruf per kata yang paling sering dipakai antara 3‌–5 – Ragam bahasa menentukan pemilihan kata – Pola distribusi frekuensi penggunaan kata bahasa Indonesia mengikuti

hukum Zipf

• Penyempurnaan – Pengenalan nama diri (named-entity recognition) – Penandaan kata hentian (stopwords)

• Pengembangan: – Kamus kata bahasa Indonesia sederhana berdasarkan kata yang paling

sering muncul dalam berbagai korpus – Kamus variasi ejaan (atau salah eja) kata – Penerjemahan otomatis antarragam bahasa (mis. SMS ke formal)

10


Top Related