Sehr große Sammlung sehr großer Korpora aus Internettexten, auch für Französisch (1,6 Mrd. Wörter) und Italienisch (2 Mrd. Wörter).http://wacky.sslmit.unibo.it/doku.php
Sprache |
| ||
Varietät / Sprachstufe |
| ||
Englisch, Französisch, Deutsch, Italienisch | |||
Sprachliche Realisierung | schriftlich | ||
Umfang |
| bis zu 2 Milliarden Wörter pro Korpus | |
Medium | Acht Internet-Korpora in vier Sprachen, darunter ukWac, frWac, deWac und itWac. Diese Korpora wurden anhand von Vokabel- und Frequenzlisten aus den Domains der jeweiligen Sprache extrahiert. Verfügbar sind auch annotierte Versionen der französischen und englischen Wikipedia. | Medium |
|
Geographischer Ursprung |
| ||
Zeitliche Einordnung |
| ||
Daten zu Sprecher(n)/Verfasser(n) |
| ||
Form der Daten |
| ||
Format |
| ||
Annotation |
| ||
Mögliche Suchabfragen |
| ||
Quelle/Herausgeber |
| ||
Nutzungsvoraussetzungen |
| ||
Link | Einführung: http://wacky.sslmit.unibo.it/doku.php Korpus-Übersicht: http://wacky.sslmit.unibo.it/doku.php | ||
Literatur | M. Baroni, S. Bernardini, A. Ferraresi and E. Zanchetta (2009): "The WaCky Wide Web: A Collection of Very Large Linguistically Processed Web-Crawled Corpora". In: Language Resources and Evaluation 43 (3), 209-226. |