pendaringan kbbi -...

Post on 04-Sep-2019

11 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Pendaringan KBBI

David Moeljadi22 September 2016

Jurusan Linguistik dan Kajian Multibahasa, Fakultas Humaniora dan Ilmu Sosial,Universitas Teknologi Nanyang

Lokakarya Pemutakhiran Kamus Besar Bahasa Indonesia,Best Western Premier The Hive Hotel, Jakarta, 21–23 September 2016

Perkenalan diri

David Moeljadi2014 - (2018?) S3 Linguistik di Universitas Teknologi Nanyang

1986 lahir - TK - SD - SMP - SMA (Jurusan Bahasa) di Malang, JawaTimur

2004 - 2005 S1 Sastra Jepang di Univ. Bina Nusantara, Jakarta2005 - 2006 Pusat Bahasa dan Kebudayaan Jepang, Universitas

Kajian Asing Osaka2006 - 2010 S1 Linguistik di Univ. Tokyo2010 - 2012 S2 Linguistik di Univ. Tokyo2012 - 2013 Rakuten Travel, Inc. di Tokyo2013 - 2014 Lembaga Penelitian Bahasa dan Budaya Asia dan Afrika,

Universitas Kajian Asing Tokyo

compling.hss.ntu.edu.sg/who/david/

1

Proyek saat ini

1. Indonesian Resource Grammar (INDRA)github.com/davidmoeljadi/INDRAchimpanzee.ling.washington.edu/demophin/indra/delph-in.github.io/delphin-viz/demo/

2. Wordnet Bahasa3. NTU Multilingual Corpus

compling.hss.ntu.edu.sg/ntumc/4. Indonesian Loanword Search Engine

david.blogid.me/loanword_searchengine5. Kamus Pemelajar Kanji Jepang-Indonesia6. KBBI IV7. Analisis sentimen teks bahasa Indonesia

2

Pendaringan KBBI

1. Dari Excel dan Word ke Pangkalan Data

2. Dari Pangkalan Data ke KBBI Daring

3. Perbaikan KBBI dengan menggunakan TIK

4. Dari KBBI Daring ke Antarmuka pengguna

3

Dari Excel dan Word ke PangkalanData

Dari Excel dan Word ke SQL I

1. Excel dan Word

4

Dari Excel dan Word ke SQL II

5

Dari Excel dan Word ke SQL III

2. rtf

6

Dari Excel dan Word ke SQL IV

3. html

7

Dari Excel dan Word ke SQL V

4. (Python)

8

Dari Excel dan Word ke SQL VI

5. SQL

9

Jumlah data yang berhasil diambil dari KBBI IV

• 92.011 lema, terdiri dari:• 41.472 kata dasar• 24.607 kata berimbuhan• 23.536 gabungan kata• 2.033 peribahasa• 272 idiom/kata kiasan• 91 varian

• 3.473 rujuk silang• 109.005 makna• 27.889 contoh• 789 makna contoh• 2.835 nama ilmiah• 136 rumus kimia

10

Dari Pangkalan Data ke KBBIDaring

Pencarian kata

• dari kata dasar• mencari semua entri dan subentri dari kata ‘kacang’ denganmaknanya

• secara ortografi:• mencari kata ‘mereka’ yang dapat berasal dari kata dasar yangberbeda

• per kategori:• mencari peribahasa dan idiom• mencari kata yang label bahasanya Jw dan ragamnya kl

11

Perbaikan KBBI denganmenggunakan TIK

Penambahan entri baru

• Wordnet• Kata-kata yang digunakan dalam penjelasan makna (> 100 kata)

• Kata berimbuhan

12

Penyuntingan entri

13

Penyuntingan entri

14

Penyuntingan entri

15

Penyuntingan entri

• Pisahkan sebagai entri:• dahan dan dahanam• ibu dan ibunda• preman dan premanisme• laser dan laserasi• urban dan urbanisasi

16

Penyuntingan entri

• Kesalahan tik entri:• akalakalan→ akal-akalan• bunuhbunuhan→ bunuh-bunuhan• berderetderet→ berderet-deret• mecuat-cuat→ mencuat-cuat• penunggangang→ penunggangan• porak-poranda→ porak poranda• pemberantakkan→ pemberantakan

17

Penyuntingan makna entri

• Kata-kata yang ada duplikat dengan makna sama: berbulan,berdukung, berfaedah, memfasilitasi, mengekalkan,mengelantang, mengenang, mengencani, permisalan,menalamkan, berpapan, memperebutkan

18

Penyuntingan makna entri

• Kata-kata yang ada duplikat dengan makna berbeda:cangkingan, menggelendot, menetralisasi

19

Penyuntingan makna entri

• Daftar peribahasa yang ada duplikatnya ( > 150 peribahasa)

20

Penyuntingan makna entri

dgn, dg, dng dengandsb., dsb dan sebagainyamis, msl misalnya

ttg, tt tentangsj sejenis

utk untuk

21

Penyuntingan makna entri

22

Penyuntingan makna entri

• Kesalahan tik di penjelasan makna (sekitar 700 kata)

23

Penyuntingan makna entri

• Kata-kata yang penjelasan maknanya kurang (hanya genustanpa differentia)

• Kata-kata yang penjelasan maknanya hanya berupa namailmiah (54 gabungan kata)

24

Penyuntingan makna entri

• Entri rujuk (> 330 entri)

25

Penyuntingan makna entri

• Entri rujuk (> 330 entri)

26

Lima puluh genus terbanyak di KBBI IV

Kata Frek. Kata Frek. Kata Frek. Kata Frek.orang 2703 mempunyai 526 memberi 344 sistem 241proses 1858 keadaan 526 nama 337 saling 236alat 1595 ikan 521 sangat 327 daerah 236tidak 1526 menjadi 513 dapat 304 bentuk 236bagian 835 hal 512 zat 300 air 234perihal 823 sudah 484 penyakit 297 cara 230tempat 806 bersifat 471 satuan 282 buah 227menjadikan 745 membuat 462 barang 281 memakai 224yang 664 tumbuhan 443 bahan 277 perbuatan 215hasil 656 tiruan 413 kain 269 berhubungan 212sesuatu 573 ilmu 401 anak 265 jenis 203kata 557 melakukan 352 ada 249pohon 547 fobia 350 uang 244

27

Genus di KD

Sumber: Lim et al. 201628

Lima puluh kata terbanyak dalam penjelasan makna di KBBI IV

Kata Frek. Kata Frek. Kata Frek. Kata Frek.yang 43613 seperti 3422 atas 2262 keadaan 1532dan 26221 ke 3247 proses 2207 mempunyai 1458atau 14414 dapat 3020 perbuatan 2202 barang 1439sebagainya 12410 tempat 2970 alat 2131 ada 1434dengan 12016 sebagai 2917 satu 2041 dua 1431untuk 10312 oleh 2910 karena 1873 antara 1400dalam 8638 sesuatu 2851 kecil 1828 sudah 1382di 8537 air 2763 digunakan 1803 biasanya 1362tidak 7756 suatu 2723 besar 1770 hidup 1335dari 7280 cara 2474 secara 1697 bahan 1307pada 6793 menjadi 2359 kepada 1662 waktu 1301orang 6110 bagian 2337 lebih 1653tentang 4746 lain 2280 tanah 1535

29

Dari KBBI Daring ke Antarmukapengguna

top related