Sie zeigen eine alte Version dieser Seite an. Zeigen Sie die aktuelle Version an.

Unterschiede anzeigen Seitenhistorie anzeigen

« Vorherige Version anzeigen Version 2 Nächste Version anzeigen »

Sammlung extrem großer Webkorpora zu diversen romanischen Sprachen

 

Sprache

Niederländisch, Englisch, Französisch, Deutsch, Spanisch, Schwedisch

Sprachliche Realisierung

schriftlich

Umfang

Gigatoken-Webkorpora, die zum Teil 10-20 Milliarden Tokens umfassen

Medium

Sammlung von Texten aus dem Internet

Geographischer Ursprung

Europa

Zeitliche Einordnung

ab 2011

Form der Daten

gesammelte Texte aus dem Internet, online durchsuchbar mithilfe der Suchmaske Colibri²

Format

HTML, tab-separated files (TSV)  

Annotation

tokenisiert, zum Teil lemmatisiert und part-of-speech-annotiert

Mögliche Suchabfragen

Suche nach Wörtern, Wortfolgen, Lemmata und Wortarten; die Ergebnisse sind exportierbar

Quelle/Herausgeber

 

Nutzungsvoraussetzungen

 

Link

 

  • Keine Stichwörter