Versionen im Vergleich

Schlüssel

  • Diese Zeile wurde hinzugefügt.
  • Diese Zeile wurde entfernt.
  • Formatierung wurde geändert.

Sammlung extrem großer Webkorpora zu diversen romanischen Sprachen

 

Sprache

Niederländisch, Englisch, Französisch, Deutsch, Spanisch, Schwedisch

Sprachliche Realisierung

schriftlich

Umfang

Gigatoken-Webkorpora, die zum Teil 10-20 Milliarden Tokens umfassen

Medium

Sammlung von Texten aus dem Internet

Geographischer Ursprung

Europa

Zeitliche Einordnung

ab 2011

Form der Daten

gesammelte Texte aus dem Internet, online durchsuchbar mithilfe der Suchmaske Colibri²

Format

HTML, tab-separated files (TSV)  

Annotation

tokenisiert, zum Teil lemmatisiert und part-of-speech-annotiert

Mögliche Suchabfragen

Suche nach Wörtern, Wortfolgen, Lemmata und Wortarten; die Ergebnisse sind exportierbar

Quelle/Herausgeber

 

Nutzungsvoraussetzungen

 

Link

 

Französisches Korpus aus Webdaten, FRCOW2011XS: 628 Mio Wörter.

...