Texte aus dem 14.-19. Jahrhundert, mehr als 2,7 Mio Tokens.
Annotation: POS (für 1,5 mio Tokens) und Parsing (für ca. 670.000 Tokens)
http://www.tycho.iel.unicamp.br/~tycho/corpus/en/
Sprache | Portugiesisch |
Sprachliche Realisierung | schriftlich |
Umfang | ca. 2,7 Mio. Tokens |
Medium | historische Texte aus 7 Jahrhunderten |
Geographischer Ursprung | Portugal, Brasilien |
Zeitliche Einordnung | 14.-20. Jh. |
Form der Daten | HTML, txt (zip) |
Format | digitalisierte Texte, zum Download verfügbar, zum Teil annotiert und online durchsuchbar |
Annotation | part-of-speech (für 1,5 Mio. Tokens), syntaktisches Parsing (für ca. 672.000 Tokens) |
Mögliche Suchabfragen | Suche nach Wörtern, Wortarten und syntaktischen Kategorien |
Quelle/Herausgeber |
|
Nutzungsvoraussetzungen |
|
Link |
|