Historische Texte aus dem 14.-1920. Jahrhundert, mehr als 2,7 Mio Tokens.
Annotation: POS (für 1,5 mio Tokens) und Parsing (für ca. 670.000 Tokens)
http://www.tycho.iel.unicamp.br/~tycho/corpus/en/zum Teil POS- und syntaktisch annotiert.
Sprache | Portugiesisch |
Sprachliche Realisierung | schriftlich |
Umfang | ca. 2,7 Mio. Tokens |
Medium | historische Texte aus 7 Jahrhunderten |
Geographischer Ursprung | Portugal, Brasilien |
Zeitliche Einordnung | 14.-20. Jh. |
Form der Daten | HTML, txt (zip) |
Format | digitalisierte Texte, zum Download verfügbar, zum Teil annotiert und online durchsuchbar |
Annotation | part-of-speech (für 1,5 Mio. Tokens), syntaktisches Parsing (für ca. 672.000 Tokens) |
Mögliche Suchabfragen | Suche nach Wörtern, Wortarten und syntaktischen Kategorien |
Quelle/Herausgeber | Helena Britto, Charlotte Galves, Universidade Estadual de Campinas |
Nutzungsvoraussetzungen | kostenlose Registrierung erforderlich |
Link |