10. vorlesung -...

77
Textdatenbanken Sommersemester 2009 10. Vorlesung - Text-Genres - Uwe Quasthoff Universität Leipzig Institut für Informatik [email protected]

Upload: others

Post on 07-Sep-2019

12 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

Textdatenbanken

Sommersemester 200910. Vorlesung

- Text-Genres -

Uwe Quasthoff

Universität LeipzigInstitut für Informatik

[email protected]

Page 2: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 2

Fragestellung

Verschiedene Textgenres• Zeitungstext• Romane• Gedichte• Fachtext eines Sachgebiets• ...

In• eine Datenbank oder• in verschiedene Datenbanken?

Page 3: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 3

Kriterien I

Verschiedene Datenbanken sind sinnvoll, wenn• Unterschiede untersucht werden sollen• fremde Genres (ähnlich Rauschen) das Ergebnis verschlechtern• genügend Daten pro Genre vorliegen• ...

Page 4: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 4

Kriterien II

Verschiedene Datenbanken sind NICHT sinnvoll, wenn• zu wenig Daten pro Genre vorliegen• Rauschen zunächst nicht stört und evtl. später nach Genre sortiert werden kann• ...

Page 5: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 5

Vergleich Zeitung / Web• Stoppwörter• Sachgebiete• Fachlichkeit• Redundanz

Page 6: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 6

Vergleich der top-30-Wörter Web / Zeitung

Rang deweb de  1 und der +22 der die -13 die und -14 in in 05 den den 06 mit von +27 von das -18 zu mit +19 ist zu +110 das ist -311 für sich +312 Die Die 013 des des 014 sich für -315 auf auf 016 eine im +317 ein ein 018 Sie dem -19 werden eine +10

20 im nicht -4

21 auch es +422 dem er -323 sind als -24 wird sie +625 es auch -426 nicht hat -6

27 oder Der -28 als aus -529 aus werden -1

30 bei wird -

Page 7: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 7

Vergleich der top-Substantive

Rang deweb de

1 Menschen Prozent2 Jahren Mark3 Jahr Uhr4 Zeit Jahren5 Uhr Berlin6 DM Jahr7 Seite Millionen8 Informationen Menschen

9 Jahre Jahre10 Deutschland Deutschland11 Kinder Unternehmen12 Unternehmen Zeit13 Arbeit Stadt14 Stadt Euro15 Leben Berliner16 Internet DM17 Bereich SPD18 Seiten Mann19 Teil Frau20 Fragen USA

Page 8: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 8

Vergleich der Sachgebiete

Im Web finden wir• Weniger Zahlen- und Geldangaben• Weniger Politik• Weniger Prominente• Mehr Internet und Navigation (Seite(n), Bereich, Teil)• Mehr Freizeit (Kinder, Leben, Stadt)• Mehr Pornographie

Page 9: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 9

Sprachgebrauch im Web• Häufigere persönlicher Bericht (ich, wir)• Häufigere persönliche Anrede des Lesers

Page 10: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 10

Vergleich de100k – deweb100kmysql> select m.*,m2.value from meta m, de100k.meta m2 where m.attribute=m2.attribute;+-----+---------------------------------------------------------------------+---------------------+----------------| run | attribute | value | value+-----+---------------------------------------------------------------------+---------------------+----------------| 1 | number of sentences | 100000 | 100000| 1 | average sentence length in characters | 113.8127 | 110.9568| 1 | average sentence length in words | 16.0205 | 15.7348| 1 | number of distinct word forms | 211652 | 189408| 1 | percentage of lower case word forms | 23.37 | 22.79| 1 | percentage of multi word units | 7.55 | 13.14| 1 | number of running word forms | 1611676 | 1603143| 1 | percentage of lower case running words | 61.56 | 61.32| 1 | average word form length | 11.0798 | 11.1370| 1 | average running word length | 6.082762 | 6.029890| 1 | percentage of word forms with frequency=1 | 69.39 | 65.30| 1 | percentage of text coverage by the most frequent 10 word forms | 14.94 | 15.01| 1 | percentage of text coverage by the most frequent 100 word forms | 37.82 | 38.02| 1 | percentage of text coverage by the most frequent 1 000 word forms | 57.37 | 58.23| 1 | percentage of text coverage by the most frequent 10 000 word forms | 78.06 | 78.69| 1 | percentage of text coverage by the most frequent 100 000 word forms | 93.07 | 94.42| 1 | number of sentence based co-occurrences | 243982 | 254282| 1 | minimal likelihood ratio | 6.63 | 6.63| 1 | maximal likelihood ratio | 8324.10 | 8023.17| 1 | number of neighbour co-occurrences | 67910 | 90404| 1 | minimal likelihood ratio | 3.84 | 3.84| 1 | maximal likelihood ratio | 12143.71 | 12292.24| 1 | average number of sentence based co-occurrences per sentence | 43.30 | 43.44| 1 | average number of neighbour co-occurrences per sentence | 5.12 | 5.61| 1 | most frequent word | der | der| 1 | most frequent word's frequency | 44368 | 49463+-----+---------------------------------------------------------------------+---------------------+----------------36 rows in set (0.02 sec)

Page 11: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 11

Wortgruppen in de100k, nicht in deweb100k

mysql> select w1.* from words w1 left outer join SG_deweb_100K_tinyCC.words w2 on(w1.word=w2.word) where w1.word like "% %" and isnull(w2.word) order by w1.freq desc limit 60;

+-------+--------------------------------------------+------+| w_id | word | freq |+-------+--------------------------------------------+------+| 2983 | George W. | 51 || 3098 | George W. Bush | 49 || 5525 | SPIEGEL ONLINE | 31 || 5658 | Oskar Lafontaine | 28 || 6462 | Tour de France | 23 || 6612 | US-Präsident George W. Bush | 23 || 8152 | Ariel Scharon | 21 || 7754 | Regierende Bürgermeister | 20 || 7562 | Boris Jelzin | 20 || 9649 | mit beschränkter Haftung | 18 || 7414 | großen Koalition | 18 || 9205 | Wolfgang Thierse | 18 || 7244 | Jan Ullrich | 18 || 8247 | Gregor Gysi | 18 || 7133 | Theo Waigel | 18 || 14944 | Donald Rumsfeld | 17 || 11797 | Welt am Sonntag | 17 || 9501 | Peter Struck | 16 || 9747 | kommenden Montag | 15 || 6884 | Manfred Stolpe | 15 || 11793 | Gesellschaft mit beschränkter Haftung | 15 || 11111 | Jürgen Rüttgers | 14 || 10816 | Bundesfinanzminister Hans Eichel | 14 || 9034 | Sat 1 | 14 || 8808 | Uli Hoeneß | 14 || 11483 | Ralf Schumacher | 14 |

| 6991 | Jacques Chirac | 14 || 11838 | US-Präsident Bill Clinton | 13 || 16658 | Jürgen Röber | 13 || 10699 | Wolfgang Gerhardt | 13 || 14972 | Michael Glos | 13 || 11479 | Otto Rehhagel | 13 || 13067 | Arbeitslosengeld II | 12 || 10308 | Peter Strieder | 12 || 13295 | Dieter Hoeneß | 12 || 14378 | US Open | 12 || 11694 | Kanzler Gerhard Schröder | 12 || 8933 | Ulla Schmidt | 12 || 10764 | Love Parade | 12 || 9655 | Außenminister Joschka Fischer | 12 || 10138 | Jörg Schönbohm | 11 || 13446 | Bundesagentur für Arbeit | 11 || 17037 | Präsident Bush | 11 || 10646 | AC Mailand | 11 || 13789 | Gerhard Mayer-Vorfelder | 11 || 12083 | Rechtsgeschäfte mit | 11 || 13290 | Juventus Turin | 11 || 15213 | endgültige Entscheidung | 11 || 15284 | Präsident George W. Bush | 11 || 23722 | 7. Dezember | 11 || 14467 | Axel Springer | 11 || 15751 | Präsident Wladimir Putin | 11 || 13595 | Deutschen Fußball-Bundes | 10 || 22348 | Osama Bin Laden | 10 || 13841 | Erik Zabel | 10 || 15549 | Auswärtigen Amtes | 10 || 8071 | Berti Vogts | 10 |...

Page 12: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 12

Vergleich der 300k-Korporamysql> select m.*,m2.value from SG_deweb_300K_tinyCC.meta m, de300k.meta m2 where m.attribute=m2.attribute;+-----+---------------------------------------------------------------------+---------------------+-------------| run | attribute | value | value+-----+---------------------------------------------------------------------+---------------------+-------------| 1 | number of distinct word forms | 455085 | 383455| 1 | percentage of multi word units | 7.19 | 13.53

mysql> select w1.*,w4.freq,w3.freq from de100k.words w1 left outer join SG_deweb_100K_tinyCC.words w2 on(w1.word=w2.word) left outer join SG_deweb_300K_tinyCC.words w3 on(w1.word=w3.word), de300k.words w4 where w4.word=w1.word and w1.word like "% %" and isnull(w2.word) limit 30;

+-------+---------------------------------------+------+------+------+| w_id | word | freq | freq | freq |+-------+---------------------------------------+------+------+------+| 2983 | George W. | 51 | 164 | 3 || 3098 | George W. Bush | 49 | 160 | 3 || 5525 | SPIEGEL ONLINE | 31 | 74 | 1 || 5658 | Oskar Lafontaine | 28 | 68 | 2 || 6462 | Tour de France | 23 | 61 | 3 || 6612 | US-Präsident George W. Bush | 23 | 67 | 1 || 8152 | Ariel Scharon | 21 | 50 | NULL || 7754 | Regierende Bürgermeister | 20 | 46 | 1 || 7562 | Boris Jelzin | 20 | 70 | 1 || 9649 | mit beschränkter Haftung | 18 | 44 | 3 || 7414 | großen Koalition | 18 | 55 | 1 || 9205 | Wolfgang Thierse | 18 | 49 | 1 || 7244 | Jan Ullrich | 18 | 54 | 2 || 8247 | Gregor Gysi | 18 | 50 | 1 || 7133 | Theo Waigel | 18 | 52 | 1 || 14944 | Donald Rumsfeld | 17 | 31 | NULL || 11797 | Welt am Sonntag | 17 | 30 | 2 || 9501 | Peter Struck | 16 | 41 | 3 || 9747 | kommenden Montag | 15 | 41 | 4 || 6884 | Manfred Stolpe | 15 | 55 | 1 || 11793 | Gesellschaft mit beschränkter Haftung | 15 | 38 | 3 || 11111 | Jürgen Rüttgers | 14 | 32 | 4 || 10816 | Bundesfinanzminister Hans Eichel | 14 | 45 | 1 |

Beobachtungen: 1. Es gibt offensichtlich mehr

Wortformen in deweb als in de. Schreibfehler und/oder breitere Themen?

2. Die Anzahlen pro Wort wachsen von de100k (Spalte 3) zu de300k (Spalte 4) linear.

3. Die in deweb100k fehlenden Wörter treten in deweb300k (Spalte5) langsam auf.

Page 13: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 13

Wörter aus deweb1M, nicht in de1Mmysql> select w1.* from SG_deweb_1M_tinyCC.words w1 left

outer join de1M.words w2 on(w1.word=w2.word) where isnull(w2.word) limit 30;

+-------+----------------------+------+| w_id | word | freq |+-------+----------------------+------+| 3757 | für | 400 || 4601 | Seitenanfang | 319 || 4673 | Stammtalker | 312 || 5939 | JavaScript | 238 || 6158 | °C | 229 || 7717 | über | 173 || 8668 | Jänner | 149 || 10033 | ½ | 124 || 10062 | WS | 124 || 10093 | nach Ihren Wünschen | 123 || 10107 | mail | 123 || 10169 | Artikelliste | 122 || 10399 | ausser | 119 || 10759 | Vorheriger | 114 || 10769 | Grüsse | 114 || 10773 | gross | 114 || 11239 | D.h | 108 || 11383 | Irrtümer vorbehalten | 106 |

mysql> select w1.* from SG_deweb_1M_tinyCC.words w1 left outer join de1M.words w2 on(w1.word=w2.word) where isnull(w2.word) and w1.freq=1 limit 30;

+--------+----------------------+------+| w_id | word | freq |+--------+----------------------+------+| 344496 | hartschwänzige | 1 || 344497 | angestupst | 1 || 344498 | Anwahlgerät | 1 || 344499 | sogannanter | 1 || 344500 | Isophon | 1 || 344502 | Embargo-Bruch | 1 || 344503 | Minnesotans | 1 || 344504 | RIMINI | 1 || 344505 | dichtgewebtes | 1 || 344506 | Chrysanthemenblüte | 1 || 344507 | Fan-Turnieren | 1 || 344508 | aufgezeichnete Daten | 1 || 344509 | Hausstaubbelastungen | 1 || 344510 | CD-Repro | 1 || 344511 | Fa.Lexware | 1 || 344512 | Inselsystem)Wie | 1 || 344513 | herunterspeichern | 1 || 344514 | WebSitepromotion | 1 |

Page 14: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 14

Vergleich verschiedener Zeitungen

Vergleich von• Frankfurter Allgemeine• taz• Bild• Neues Deutschland• Junge Freiheit

Oder:• Berliner Tageblatt• Kölner Stadtanzeiger• Hamburger Abendblatts

Page 15: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 15

Vergleich verschiedener Autoren

Autoren mit viel Text• Karl Marx• Karl May• J.W. Goethe• Joannne Rowling• ...

Verwandte Fragestellung: Autorenerkennung• Wieviel Text ist dafür nötig?• Was sind sinnvolle Parameter?

Page 16: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 16

Wikipedias• In vielen Sprachen• Manche recht umfangreich• Einheitliches Format• Zum Download als fertige HTML-Seiten erhältlich

Page 17: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 17

Die größten Wikipedias IWikipedias mit mehr als 1.000.000 Artikeln (1) Englisch (English) Wikipedias mit mehr als 500.000 Artikeln(2) Deutsch - Französisch (Français) Wikipedias mit mehr als 250.000 Artikeln(5) Italienisch (Italiano) - Japanisch ( 日本語 ) - Niederländisch (Nederlands) -

Polnisch (Polski) - Portugiesisch (Português)Wikipedias mit mehr als 100.000 Artikeln(6) Chinesisch ( 中文 ) - Finnisch (Suomi) - Norwegisch (Bokmål) - Russisch

(Русский) - Schwedisch (Svenska) - Spanisch (Español)Wikipedias mit mehr als 50.000 Artikeln(12) Dänisch (Dansk) - Esperanto (Esperanto) - Hebräisch (עברית) - Indonesisch

(Bahasa Indonesia) - Katalanisch (Català) - Lombardisch (Lumbaart) - Rumänisch (Română) - Slowakisch (Slovenčina) - Tschechisch (Česky) - Türkisch (Türkçe) - Ukrainisch (Українська) - Ungarisch (Magyar)

Page 18: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 18

Die größten Wikipedias II

Wikipedias mit mehr als 25.000 Artikeln(10) Arabisch (العربية) - Bulgarisch (Български) - Cebuano (Cebuano) - Estnisch

(Eesti) - Koreanisch ( 한국어 ) - Kroatisch (Hrvatski) - Litauisch (Lietuvių) - Serbisch (Српски / Srpski) - Slowenisch (Slovenščina) - Telugu (తతతతతత)

Wikipedias mit mehr als 10.000 Artikeln(25) Albanisch (Shqip) - Baskisch (Euskara) - Bengali (తతతతత) - Bishnupriya

Manipuri (తతతత తతత/తతతతతతతతతతతతత తతతతతతత) - Bosnisch (Bosanski) - Bretonisch (Brezhoneg) - Einfaches Englisch (Simple English) - Galicisch (Galego) - Georgisch ( ) - Griechisch (Ελληνικά) - ქართულიHindi (ह�न��) - Ido (Ido) - Isländisch (Íslenska) - Javanisch (Basa Jawa) - Lateinisch (Latina) - Luxemburgisch (Lëtzebuergesch) - Malaiisch (Bahasa Melayu) - Neapolitanisch (Nnapulitano) - Nepal Bhasa (न�प�ल भ�ष�) - Norwegisch (Nynorsk) - Persisch (فارسی) - Serbokroatisch (Srpskohrvatski / Српскохрватски) - Sundanesisch (Basa Sunda) - Tamilisch (தம�ழ) - Thailändisch (ไทย) - Vietnamesisch (Tiếng Việt)

Page 19: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 19

Wikipedia-Datenbanken – kleinere Sprachen I

Language lang. articles #kb #unique sentences

#non foreign sentences (pass 1)

Finnish fi 119908 219540 2542700 2471782

Norwegian (Bokmål) no 116093 192520 2052158 1966768

Esperanto eo 85394 124792 1159373 1088885

Turkish tr 83154 159844 1078935 1052695

Slovak sk 71314 94612 1128462 1078462Czech cs 70130 161628 1729946 1628828

Romanian ro 67157 101652 813742 692679

Catalan ca 65701 109296 1312394 1288733

Danish da 64558 99944 997886 949555Ukrainian uk 63434 85884 1023615 1016767Hungarian hu 62548 159752 1593033 1552856

Indonesian id 62387 83644 896062 828777

Page 20: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 20

Wikipedia-Datenbanken – kleinere Sprachen VII

Language lang. articles #kb #unique sentences #non foreign sentences (pass 1)

Haitian ht 7053 3640 43587 39246

Azeri az 6907 7596 47933 43629

Ripuarian ksh 6804 7932 39655 33471

Tagalog tl 6148 9500 105707 86344

Aragonese an 6135 8844 172556 163901

Chuvash cv 5876 5220 42448 42054

Urdu ur 5869 10132 54659 53739

Uzbek uz 5542 7328 75908 72855

Corsican co 5408 4300 23333 19486

Belarusian be 5309 3068 20927 20756

Irish Gaelic ga 5141 8876 72605 65464

Page 21: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 21

Wikipedia Eigenschaften• Wenig Redundanz• Fachlich breit gefächert• Es existieren Richtlinien für Autoren• Fast keine 1./2. Person

Page 22: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 22

Projekt Gutenberg und Verwandte

Gutenberg in Zahlen • mehr als 3.000 Bücher, (über 1.000.000 Buchseiten) • ca. 20.000 Gedichte• 1.800 Märchen• 1.200 Fabeln• 3.500 Sagen• ca. 3,3 Millionen Seitenabrufe (Pageimpressions) / MonatStand: Juni 2007

Page 23: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 23

Korpus Gedichte I  Zeitungstext Gedichte

Die 20 häufigsten Substantive

Prozent, Mark, Jahr, Jahren, Uhr, Millionen, Jahre, Menschen, Deutschland, Ende, Zeit, Stadt, Berlin, Unternehmen, SPD, Frau, Mann, Leben, Milliarden, Welt, Regierung

Herz, Nacht, Welt, Gott, Liebe, Leben, Himmel, Hand, Zeit, Augen, Kind, Tag, Sonne, Seele, Mann, Herr, Erde, Menschen, Licht, Haus, Tod

Durchschnittliche Wortlänge

12,10 7,52

Kookkurrenzen zu „quillt“ Magma, Träne, Rauch, hervor, Aus, heraus, Boxen, Bauch, Briefkasten, Ritzen, dringt, Blut, Dampf, ...

aus, Blut, Aus, fragend, Herzen, erstaunt, suchst, Saft, Rasen, Träne, Wunden, ein, hervor

Kookkurrenzen zu „Wipfel“ Bäume, Baum, Fichten, Zweige, Urapanes, Tannen, Baumes, Lesesäle, Baucis, Philemon, ...

die, neigen, Hains, rauschen, flüstern, Eiche, durch, glühn, alle, höchsten, Durch

Page 24: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 24

Korpus Gedichte IIWir können auch die auffälligsten Substantive aus Gedichten anschauen, die in

Zeitungstext vergleichsweise selten sind: Himmel, Herzen, Mutter, Schatten, Freund, Mädchen, Blumen, Lebens, Sterne, Mensch, Morgen, Wolken, Schmerz, Fenster, Freude, Wasser, Gottes, Stunde, Tränen, Jugend, Lippen, Schein, Gesicht, Garten, Frühling, Lieder, Gedanken, Tugend, Freiheit, Schönheit, Götter, Wellen, Wahrheit, Himmels, Schlaf, Nichts, Schnee, Ritter, Flügel, Dunkel, Blicke, Gesang, Gleich, Schiff, Händen, Seelen, Felsen, Flammen, ...

Auch bei Adjektiven, Adverbien und Verben gibt es solch für Gedichte typischen Wörter: gleich, sprach, schöne, nieder, tausend, schönen, lieben, stillen, singen, stille, grünen, bricht, schaut, sterben, frisch, blauen, steigt, schauen, schwarzen, schlägt, einsam, schien, erwacht, wilden, willst, traurig, dunkle, freundlich, langsam, treibt, weißen, schöner, schlug, heimlich, mancher, blickt, fliegen, hellen, manches, umsonst, schweben, stürzt, weiten, heiligen, ...

Page 25: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 25

Dimension Zeit

Wann sind Zeitscheiben sinnvoll?• Beobachtung von zeitlichen Veränderungen• Neuheiten• Trends

Page 26: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 26

Zeitintervalle (Jahr / Monat / Tag)?

Erfahrungen mit:

• Wörtern des Tages (Tag)• Wörtern der Woche (Woche)• Neologismen (jährlich)

Page 27: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 27

Wörter der Woche (WdW)

Page 28: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 28

Kriterien für WdW I

Dabei gibt es zwei Filtermechanismen.Zum Einen muss ein WdW mehrfach WdT gewesen sein, zum Anderen muss ein

WdW auch ein gewisses Mindestvorkommen in den Quellen erfüllen. Beide Schwellwerte sind Tagesmittel. Also beispielsweise wird ein Wort WdW, wenn es im Betrachtungszeitraum (üblicherweise sieben Tage) an mindestens drei Tagen WdT war. Der Schwellwert (zu erfüllende Durchschnitt) ist also 3/7.

Analog bei der Anzahl der absoluten Vorkommen in den WdT-Quellen. Hier muss ein Wort beispielsweise 150x innerhalb einer Woche gesehen worden sein, also im Mittel rund 20x pro Tag.

Da insgesamt mehr Politiker als Künstler erwähnt werden, unterscheiden sich die Schwellwerte ja nach Kategorie.

Page 29: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 29

Kriterien für WdW II## filter für anzahl der tage an denen ein wort wdt war,## gerechnet auf eine woche (3/7. bedeutet 3x wdt in einer woche)

1 : 2/7., ## sportler2 : 2/7., ## künstler3 : 5/7., ## politiker4 : 3/7., ## person5 : 4/7., ## sport6 : 3/7., ## organisation7 : 3/7., ## ereignis8 : 4/7., ## ort9 : 3/7. ## schlagwort ## 10 - nicht anzeigen

## filter für die anzahl der aufteten im beobachtungszeitraum ## 50/7. bedeutet: das wort wurde mindestens 50x gesehen über der ## spanne von 7 tagen - sozusagen ein mittelwert über den zeitraum

1 : 50/7., ## sportler 2 : 50/7., ## künstler 3 : 150/7., ## politiker 4 : 150/7., ## person 5 : 150/7., ## sport 6 : 100/7., ## organisation 7 : 60/7., ## ereignis 8 : 100/7., ## ort 9 : 100/7. ## schlagwort ## 10 - nicht anzeigen

Page 30: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 30

Page 31: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 31

Ausblick: Alterungsprozess für WörterWir betrachten die Wörter und ihre Anzahlen beim Lesen eines Korpus. Wörter

werden „geboren“, wenn sie erstmalig vorkommen.• Die Anzahlen steigen monoton• Kookkurrenzen werden (meist) mehr und tendenziell stärker.• Jüngere Wörter haben meist kleinere Anzahlen.• Die ersten Kookkurrenten junger Wörter sind meist älter als das Wort selbst.• Neue Kookkurrenten älterer Wörter sind häufig jünger?ALSO:Während ein Wort altert, verjüngen sich die neu hinzukommenden Kookkurrenten

ständig!

Page 32: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 32

Auswahlkriterien• Zeitintervall problemangepasst• Datenlage: Mindestmenge pro Zeitintervall• Zeitliche Vergleichbarkeit (z.B. keine Saisonabhängigkeit)

Page 33: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 33

Vergleich: Parameter

Vergleich durch numerische Parameter

Page 34: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 34

Lexikalischer Vergleich

Differenzanalyse:• Welche Wörter treten im Korpus A auffällig häufig verglichen mit Korpus B auf?• Korpus B kann ein anderes Spezialkorpus oder ein generelles Referenzkorpus

sein.

Page 35: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 35

Struktureller Vergleich

Beispiel: Vergleich von unterschiedlichen Sprachen

The World Atlas of Language Structures - WALS

• Fragen über jede Sprache wurden von Experten beantwortet

• Daraus wird ein Feature-Vektor erstellt• Diese Vektoren werden geclustert.

Page 36: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 36

WALS-Fragebogen (Ausschnitte)

Page 37: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 37

Page 38: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 38

Page 39: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 39

Korpusvergleich

Verfahren:• Fragestellungen an die Datenbank, die sich

– Als Script formulieren lassen und– Effektiv beantworten lassen

• Scripte arbeiten auf der Datenbank als– Select-Statement(s)– PHP-Scripte– Andere kleine Programme

• Die entspricht „Messungen am Korpus“

Page 40: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 40

Resultate beim Korpusvergleich

Messungen am Korpus erlauben verschiedene Auswertungen:• Untersuchung der Datensätze mit extremen (d.h. großen oder kleinen) Messwerten• Verlauf der Messwerte über alle Messungen (Glockenkurve, Zipf-Kurve, ...)• Vergleich der Messungen für verschiedene Korpora

Mögliche Erkenntnisse• Erkenntnisse über statistische Regelmäßigkeiten der Sprache• Auffinden einzelner, relevanter Parameter (z.B. Anstieg einer Geraden)• Vergleich dieser Parameter für verschiedene Korpora / Sprachen• Finden von Datensätzen mit extremalen Eigenschaften• Auffinden von Lücken in der Vorverarbeitung, weil die die extremalen Datensätze

nur Datenmüll enthalten

Page 41: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 41

Character frequencies

Page 42: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 42

The most frequent 50 Words The table shows the top-50 words of the

corpus. Usually we see stopwords. This list is a good candidate for a first

stopword list for a language.Usually a small, balanced corpus is

enough to get a good list of high frequent words. But if the small corpus has some very prominent topic, this will be visible even in the top word lists.

Page 43: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 43

Longest Words in Top-1000 by length The most frequent 1000 words contain a many stopwords and the most frequent

content words. Assuming that stopwords are usually short, the list presented here shows some important content words.

In the case of very poor pre-processing, some non-words may appear in the list. But there will be much finer tests for poor pre-processing below.

Page 44: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 44

Longest Words

The longest words of the corpus with minimum frequency 2 are shown. The words are seen at least twice, hence, there is some chance for not seeing misprinted words.

Surprisingly, there is no longest word which is much longer than the second one. This, again, argues for correct preprocessing.

Page 45: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 45

Frequency of numbers I

Numbers can be expected to appear with regular frequencies. In this subsection we present the frequencies for the most frequent cardinal numbers with a fixed number of digits.

For very small numbers, the ordering by frequency is nearly the natural ordering with a slight preference for round lots.

Page 46: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 46

Frequency of numbers II

In the case of four-digit numbers we usually get years. Here we see the temporal focus of the corpus.

Page 47: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 47

Most Frequent Abbreviations

If the tokenizer used for word tokenization knows abbreviations (ending with full stop; only those abbreviations may yield to problems during sentence segmentation), these are included in the word list as words ending in a full stop. The list shows the 50 most frequent words of this form.

Page 48: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 48

Mainly noise: Words containing special characters

Page 49: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 49

Zipf's law (Standard version)

Page 50: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 50

Zipf's law for words of fixed lengths

The validity of Zipf’s law for all words does not imply its validity for words of fixed length. The tables show the most frequent words for fixed word lengths 4, 6, 8, …, 14.

Page 51: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 51

Most frequent word beginnings The tables show the most frequent letter-N-

grams at the beginning of words for N=1…5. Their frequency is count without multiplicity, otherwise the stopwords would dominate the tables.

Word prefixes are clearly visible. In the above example, ver- and ein- are prefixes, and Sch- is not. At the end of a prefix we typically have a wide variety of possible continuations. Hence a prefix of length k will be prominent in the table for N=k, but typically not in the table for N=k+1. The prominent entries Schw- and Schl- for N=4 tell us that Sch- is no prefix.

Page 52: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 52

Most frequent word beginnings Zipf’s diagram is

plotted with both axis in logarithmic scale, hence we expect nearly straight lines. The graphs look more typical for larger N. Especially for N=3 we find only a small number of trigrams resulting in a sharp decay.

Page 53: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 53

Zipf's law for words with same first letter

Page 54: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 54

Zipf's law for words with same last letter: a, b, e, n

Page 55: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 55

Words by Length without multiplicity Here we ignore the fact that

words have different frequencies. So for the average word length, each word is considered equally. For a fixed word length, we count the number of different words having this length.

With a logarithmic scale of the y-axis, we get a nearly linear part between length 15 and 40.

Page 56: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 56

Words by Length with multiplicity

The fact that stopwords are very high frequent and short will give a shorter average word length than in the previous picture.

Page 57: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 57

Average word length for different frequency ranges The table shows the average word

length (counted without multiplicity) for the most frequent 10n (n=1,2,…) words.

Page 58: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 58

Distribution of Letters in Words

Number of words containing a fixed number of occurrences of the character „o“

Page 59: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 59

Number of letter-N-grams at word beginnings How many different

letter-N-grams do we find at the beginning of a word? Of course we will find many unexpected N-grams, but the will have low frequency. This is the reason to count these numbers for different ranges and use the top K=10n words (n=2, 3, 4, 5, 6).

Page 60: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 60

Text coverage by top words

Text coverage measures the number of words necessary to cover a certain amount of text of a corpus. The table shows the text coverage for the first N=10n words, n=1,…,5.

A diagram with these values and logarithmic x-axis shows a nearly straight line.

Page 61: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 61

Text Coverage

text coverage by the most frequent 10 words: 21.129%text coverage by the most frequent 100 words: 40.212%text coverage by the most frequent 1 000 words: 60.632% text coverage by the most frequent 10 000 words: 80.703% text coverage by the most frequent 100 000 words: 93.498%

Page 62: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 62

Sentences containing the most frequent wordsFor the most frequent

words we present the percentage of sentences containing this word.

Page 63: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 63

Length of sentences in characters and words

Page 64: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 64

Most frequent sentence beginnings and endings of different length

Page 65: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 65

Sentences consisting of short words only In this subsection we look for sentences containing only short words. The sentences

have minimum length of 40 characters and are ordered by the length of the longest word.

Page 66: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 66

Sentences with highest average word number

Page 67: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 67

Sentences with highest average word length

Page 68: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 68

Types of Sentences by Punctuation Mark

Page 69: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 69

Sentences consisting of long words only The table shows the sentences with maximal average word length. Because some

languages allow very long words, such sentences may also contain short stopwords. Hence, we may find (at least some) well-formed sentences.

Page 70: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 70

Language Fingerprint NN co-occurrences within the 10 most frequent words

Page 71: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 71

Number of NN-co-occurrences depending on frequency classes In many cases, two co-

occurring words have nearly the same frequency. In many other cases (like DET NN), the frequencies differ very much. The following plot shows the frequency classes of co-occurring words. Frequency classes are defined as the logarithm (with base 2) of the frequency rank. The size of the dots corresponds to the number of co-occurrences with the corresponding pair of frequency classes.

Page 72: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 72

Number of sentence co-occurrences vs. Frequency The diagram below displays for any word its frequency and number of sentence co-

occurrences.

Page 73: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 73

Size of S

ources

Page 74: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 74

Sentence length for different sources: Min and Max

Page 75: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 75

Average word length for different sources: Min and Max

Page 76: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 76

Sources consisting of many / few words with frequency 1

Page 77: 10. Vorlesung - Text-Genresasv.informatik.uni-leipzig.de/document/file_link/112/Textdatenbanken10.pdf · - Sundanesisch (Basa Sunda) - Tamilisch (தம˜ழ) - Thailändisch (ไทย)

U. Quasthoff Textdatenbanken 77

Sources with low / high average word length of rare words