Versionen im Vergleich

Schlüssel

  • Diese Zeile wurde hinzugefügt.
  • Diese Zeile wurde entfernt.
  • Formatierung wurde geändert.

Historische Texte aus dem 14.-1920. Jahrhundert, mehr als 2,7 Mio Tokens.

Annotation: POS (für 1,5 mio Tokens) und Parsing (für ca. 670.000 Tokens)

http://www.tycho.iel.unicamp.br/~tycho/corpus/en/zum Teil POS- und syntaktisch annotiert.

 

Sprache

Portugiesisch

Sprachliche Realisierung

schriftlich

Umfang

ca. 2,7 Mio. Tokens

Medium

historische Texte aus 7 Jahrhunderten

Geographischer Ursprung

Portugal, Brasilien

Zeitliche Einordnung

14.-20. Jh.

Form der Daten

 HTML, txt (zip)

Format

digitalisierte Texte, zum Download verfügbar, zum Teil annotiert und online durchsuchbar

Annotation

part-of-speech (für 1,5 Mio. Tokens),  syntaktisches Parsing (für ca. 672.000 Tokens)

Mögliche Suchabfragen

Suche nach Wörtern, Wortarten und syntaktischen Kategorien

Quelle/Herausgeber 

Helena Britto, Charlotte Galves, Universidade Estadual de Campinas

Nutzungsvoraussetzungen 

kostenlose Registrierung erforderlich

Link 

http://www.tycho.iel.unicamp.br/~tycho/corpus/index.html