...
Sprache | Englisch, Französisch, Deutsch, Italienisch |
Sprachliche Realisierung | schriftlich |
Umfang | bis zu 2 Milliarden Wörter pro Korpus |
Medium | Acht Internet-Korpora in vier Sprachen, darunter ukWac, frWac, deWac und itWac. Diese Korpora wurden anhand von Stichwortlisten aus den Domains der jeweiligen Sprache extrahiert. Verfügbar sind auch annotierte Versionen der französischen und englischen Wikipedia. |
Zeitliche Einordnung | aktuell |
Form der Daten | große Textmengen aus dem Internet, online durchsuchbar. Download auf Anfrage möglich. |
Format | HTML |
Annotation | zum Teil Lemmatisierung und part-of-speech-Annotation, zum Teil syntaktisches Parsing |
Mögliche Suchabfragen | Wörter, Sätze, Lemmata, Wortarten, reguläre Ausdrücke. Die Suchergebnisse werden mit Konkordanzen ausgegeben. |
Quelle/Herausgeber | Universitäten Bologna, Pisa, Trento, Stuttgart, Darmstadt, Hildesheim, Naval, Oslo, Pecara, Leeds und Tokio |
Nutzungsvoraussetzungen | Zugang frei |
Link | Einführung: http://wacky.sslmit.unibo.it/doku.php Korpus-Übersicht: http://wacky.sslmit.unibo.it/doku.php Suchmaske: http://nl.ijs.si/noske/wacs.cgi/first_form?corpname=itwac;align= |
Literatur | M. Baroni, S. Bernardini, A. Ferraresi and E. Zanchetta (2009): "The WaCky Wide Web: A Collection of Very Large Linguistically Processed Web-Crawled Corpora". In: Language Resources and Evaluation 43 (3), 209-226. Download |