pendaringan kbbi -...
TRANSCRIPT
Pendaringan KBBI
David Moeljadi22 September 2016
Jurusan Linguistik dan Kajian Multibahasa, Fakultas Humaniora dan Ilmu Sosial,Universitas Teknologi Nanyang
Lokakarya Pemutakhiran Kamus Besar Bahasa Indonesia,Best Western Premier The Hive Hotel, Jakarta, 21–23 September 2016
Perkenalan diri
David Moeljadi2014 - (2018?) S3 Linguistik di Universitas Teknologi Nanyang
1986 lahir - TK - SD - SMP - SMA (Jurusan Bahasa) di Malang, JawaTimur
2004 - 2005 S1 Sastra Jepang di Univ. Bina Nusantara, Jakarta2005 - 2006 Pusat Bahasa dan Kebudayaan Jepang, Universitas
Kajian Asing Osaka2006 - 2010 S1 Linguistik di Univ. Tokyo2010 - 2012 S2 Linguistik di Univ. Tokyo2012 - 2013 Rakuten Travel, Inc. di Tokyo2013 - 2014 Lembaga Penelitian Bahasa dan Budaya Asia dan Afrika,
Universitas Kajian Asing Tokyo
compling.hss.ntu.edu.sg/who/david/
1
Proyek saat ini
1. Indonesian Resource Grammar (INDRA)github.com/davidmoeljadi/INDRAchimpanzee.ling.washington.edu/demophin/indra/delph-in.github.io/delphin-viz/demo/
2. Wordnet Bahasa3. NTU Multilingual Corpus
compling.hss.ntu.edu.sg/ntumc/4. Indonesian Loanword Search Engine
david.blogid.me/loanword_searchengine5. Kamus Pemelajar Kanji Jepang-Indonesia6. KBBI IV7. Analisis sentimen teks bahasa Indonesia
2
Pendaringan KBBI
1. Dari Excel dan Word ke Pangkalan Data
2. Dari Pangkalan Data ke KBBI Daring
3. Perbaikan KBBI dengan menggunakan TIK
4. Dari KBBI Daring ke Antarmuka pengguna
3
Dari Excel dan Word ke PangkalanData
Dari Excel dan Word ke SQL I
1. Excel dan Word
4
Dari Excel dan Word ke SQL II
5
Dari Excel dan Word ke SQL III
2. rtf
6
Dari Excel dan Word ke SQL IV
3. html
7
Dari Excel dan Word ke SQL V
4. (Python)
8
Dari Excel dan Word ke SQL VI
5. SQL
9
Jumlah data yang berhasil diambil dari KBBI IV
• 92.011 lema, terdiri dari:• 41.472 kata dasar• 24.607 kata berimbuhan• 23.536 gabungan kata• 2.033 peribahasa• 272 idiom/kata kiasan• 91 varian
• 3.473 rujuk silang• 109.005 makna• 27.889 contoh• 789 makna contoh• 2.835 nama ilmiah• 136 rumus kimia
10
Dari Pangkalan Data ke KBBIDaring
Pencarian kata
• dari kata dasar• mencari semua entri dan subentri dari kata ‘kacang’ denganmaknanya
• secara ortografi:• mencari kata ‘mereka’ yang dapat berasal dari kata dasar yangberbeda
• per kategori:• mencari peribahasa dan idiom• mencari kata yang label bahasanya Jw dan ragamnya kl
11
Perbaikan KBBI denganmenggunakan TIK
Penambahan entri baru
• Wordnet• Kata-kata yang digunakan dalam penjelasan makna (> 100 kata)
• Kata berimbuhan
12
Penyuntingan entri
13
Penyuntingan entri
14
Penyuntingan entri
15
Penyuntingan entri
• Pisahkan sebagai entri:• dahan dan dahanam• ibu dan ibunda• preman dan premanisme• laser dan laserasi• urban dan urbanisasi
16
Penyuntingan entri
• Kesalahan tik entri:• akalakalan→ akal-akalan• bunuhbunuhan→ bunuh-bunuhan• berderetderet→ berderet-deret• mecuat-cuat→ mencuat-cuat• penunggangang→ penunggangan• porak-poranda→ porak poranda• pemberantakkan→ pemberantakan
17
Penyuntingan makna entri
• Kata-kata yang ada duplikat dengan makna sama: berbulan,berdukung, berfaedah, memfasilitasi, mengekalkan,mengelantang, mengenang, mengencani, permisalan,menalamkan, berpapan, memperebutkan
18
Penyuntingan makna entri
• Kata-kata yang ada duplikat dengan makna berbeda:cangkingan, menggelendot, menetralisasi
19
Penyuntingan makna entri
• Daftar peribahasa yang ada duplikatnya ( > 150 peribahasa)
20
Penyuntingan makna entri
dgn, dg, dng dengandsb., dsb dan sebagainyamis, msl misalnya
ttg, tt tentangsj sejenis
utk untuk
21
Penyuntingan makna entri
22
Penyuntingan makna entri
• Kesalahan tik di penjelasan makna (sekitar 700 kata)
23
Penyuntingan makna entri
• Kata-kata yang penjelasan maknanya kurang (hanya genustanpa differentia)
• Kata-kata yang penjelasan maknanya hanya berupa namailmiah (54 gabungan kata)
24
Penyuntingan makna entri
• Entri rujuk (> 330 entri)
25
Penyuntingan makna entri
• Entri rujuk (> 330 entri)
26
Lima puluh genus terbanyak di KBBI IV
Kata Frek. Kata Frek. Kata Frek. Kata Frek.orang 2703 mempunyai 526 memberi 344 sistem 241proses 1858 keadaan 526 nama 337 saling 236alat 1595 ikan 521 sangat 327 daerah 236tidak 1526 menjadi 513 dapat 304 bentuk 236bagian 835 hal 512 zat 300 air 234perihal 823 sudah 484 penyakit 297 cara 230tempat 806 bersifat 471 satuan 282 buah 227menjadikan 745 membuat 462 barang 281 memakai 224yang 664 tumbuhan 443 bahan 277 perbuatan 215hasil 656 tiruan 413 kain 269 berhubungan 212sesuatu 573 ilmu 401 anak 265 jenis 203kata 557 melakukan 352 ada 249pohon 547 fobia 350 uang 244
27
Genus di KD
Sumber: Lim et al. 201628
Lima puluh kata terbanyak dalam penjelasan makna di KBBI IV
Kata Frek. Kata Frek. Kata Frek. Kata Frek.yang 43613 seperti 3422 atas 2262 keadaan 1532dan 26221 ke 3247 proses 2207 mempunyai 1458atau 14414 dapat 3020 perbuatan 2202 barang 1439sebagainya 12410 tempat 2970 alat 2131 ada 1434dengan 12016 sebagai 2917 satu 2041 dua 1431untuk 10312 oleh 2910 karena 1873 antara 1400dalam 8638 sesuatu 2851 kecil 1828 sudah 1382di 8537 air 2763 digunakan 1803 biasanya 1362tidak 7756 suatu 2723 besar 1770 hidup 1335dari 7280 cara 2474 secara 1697 bahan 1307pada 6793 menjadi 2359 kepada 1662 waktu 1301orang 6110 bagian 2337 lebih 1653tentang 4746 lain 2280 tanah 1535
29
Dari KBBI Daring ke Antarmukapengguna