Quelle anzeigen

Sammlung extrem großer Webkorpora zu diversen romanischen Sprachen

Sprache	Niederländisch, Englisch, Französisch, Deutsch, Spanisch, Schwedisch
Sprachliche Realisierung	schriftlich
Umfang	Gigatoken-Webkorpora, die zum Teil 10-20 Milliarden Tokens umfassen
Medium	Sammlung von Texten aus dem Internet
Geographischer Ursprung	Europa
Zeitliche Einordnung	ab 2011
Form der Daten	gesammelte Texte aus dem Internet, online durchsuchbar mithilfe der Suchmaske Colibri²
Format	HTML, tab-separated files (TSV)
Annotation	tokenisiert, zum Teil lemmatisiert und part-of-speech-annotiert
Mögliche Suchabfragen	Suche nach Wörtern, Wortfolgen, Lemmata und Wortarten; die Ergebnisse sind exportierbar
Quelle/Herausgeber
Nutzungsvoraussetzungen
Link