Sammlung sehr großer Korpora aus Internettexten, auch für Französisch (1,6 Mrd. Wörter) und Italienisch (2 Mrd. Wörter).
Sprache | Englisch, Französisch, Deutsch, Italienisch |
Sprachliche Realisierung | schriftlich |
Umfang | bis zu 2 Milliarden Wörter pro Korpus |
Medium | Acht Internet-Korpora in vier Sprachen, darunter ukWac, frWac, deWac und itWac. Diese Korpora wurden anhand von Vokabel- und Frequenzlisten aus den Domains der jeweiligen Sprache extrahiert. Verfügbar sind auch annotierte Versionen der französischen und englischen Wikipedia. |
Geographischer Ursprung |
|
Zeitliche Einordnung |
|
Daten zu Sprecher(n)/Verfasser(n) |
|
Form der Daten |
|
Format |
|
Annotation |
|
Mögliche Suchabfragen |
|
Quelle/Herausgeber |
|
Nutzungsvoraussetzungen |
|
Link | Einführung: http://wacky.sslmit.unibo.it/doku.php Korpus-Übersicht: http://wacky.sslmit.unibo.it/doku.php |
Literatur | M. Baroni, S. Bernardini, A. Ferraresi and E. Zanchetta (2009): "The WaCky Wide Web: A Collection of Very Large Linguistically Processed Web-Crawled Corpora". In: Language Resources and Evaluation 43 (3), 209-226. |