Versionen im Vergleich

Schlüssel

  • Diese Zeile wurde hinzugefügt.
  • Diese Zeile wurde entfernt.
  • Formatierung wurde geändert.

Sehr große Sammlung sehr großer Korpora aus Internettexten, auch für Französisch (1,6 Mrd. Wörter) und Italienisch (2 Mrd. Wörter).http://wacky.sslmit.unibo.it/doku.php

 

Sprache

 

Varietät / Sprachstufe

 

Englisch, Französisch, Deutsch, Italienisch

Sprachliche Realisierung

 schriftlich

Umfang

 

bis zu 2 Milliarden Wörter pro Korpus

Medium

Acht Internet-Korpora in vier Sprachen, darunter ukWac, frWac, deWac und itWac. Diese Korpora wurden anhand von Vokabel- und Frequenzlisten aus den Domains der jeweiligen Sprache extrahiert. Verfügbar sind auch annotierte Versionen der französischen und englischen Wikipedia.

Medium

 

Geographischer Ursprung

 

Zeitliche Einordnung

 

Daten zu Sprecher(n)/Verfasser(n)

 

Form der Daten

 

Format

 

Annotation

 

Mögliche Suchabfragen

 

Quelle/Herausgeber

 

Nutzungsvoraussetzungen

 

Link 

Einführung: http://wacky.sslmit.unibo.it/doku.php

Korpus-Übersicht: http://wacky.sslmit.unibo.it/doku.php

LiteraturM. Baroni, S. Bernardini, A. Ferraresi and E. Zanchetta (2009): "The WaCky Wide Web: A Collection of Very Large Linguistically Processed Web-Crawled Corpora". In: Language Resources and Evaluation 43 (3), 209-226.