Quelle anzeigen

Sammlung extrem großer Webkorpora zu diversen romanischen Sprachen

Sprache	Niederländisch, Englisch, Französisch, Deutsch, Spanisch, Schwedisch
Sprachliche Realisierung	schriftlich
Umfang	Gigatoken-Webkorpora, die zum Teil 10-20 Milliarden Tokens umfassen
Medium	Sammlung von Texten aus dem Internet
Geographischer Ursprung	Europa
Zeitliche Einordnung	ab 2011
Form der Daten	gesammelte Texte aus dem Internet, online durchsuchbar mithilfe der Suchmaske Colibri²
Format	HTML, tab-separated files (TSV)
Annotation	tokenisiert, zum Teil lemmatisiert und part-of-speech-annotiert
Mögliche Suchabfragen	Suche nach Wörtern, Wortfolgen, Lemmata und Wortarten; die Ergebnisse sind exportierbar
Quelle/Herausgeber	Felix Bildhauer, Roland Schäfer, Freie Universität Berlin
Nutzungsvoraussetzungen	kostenlose Registrierung erforderlich
Link	http://corporafromtheweb.org/
Literatur	Schäfer, Roland (2015): "Processing and querying large web corpora with the COW14 architecture". In: Proceedings of Challenges in the Management of Large Corpora (CMLC-3). Download