Sie zeigen eine alte Version dieser Seite an. Zeigen Sie die aktuelle Version an.

Unterschiede anzeigen Seitenhistorie anzeigen

« Vorherige Version anzeigen Version 3 Nächste Version anzeigen »

Sammlung sehr großer Korpora aus Internettexten, auch für Französisch (1,6 Mrd. Wörter) und Italienisch (2 Mrd. Wörter).

 

Sprache

Englisch, Französisch, Deutsch, Italienisch

Sprachliche Realisierung

schriftlich

Umfang

bis zu 2 Milliarden Wörter pro Korpus

Medium

Acht Internet-Korpora in vier Sprachen, darunter ukWac, frWac, deWac und itWac. Diese Korpora wurden anhand von Vokabel- und Frequenzlisten aus den Domains der jeweiligen Sprache extrahiert. Verfügbar sind auch annotierte Versionen der französischen und englischen Wikipedia.

Geographischer Ursprung

 

Zeitliche Einordnung

 

Daten zu Sprecher(n)/Verfasser(n)

 

Form der Daten

 

Format

 

Annotation

 

Mögliche Suchabfragen

 

Quelle/Herausgeber

 

Nutzungsvoraussetzungen

 

Link

Einführung: http://wacky.sslmit.unibo.it/doku.php

Korpus-Übersicht: http://wacky.sslmit.unibo.it/doku.php

LiteraturM. Baroni, S. Bernardini, A. Ferraresi and E. Zanchetta (2009): "The WaCky Wide Web: A Collection of Very Large Linguistically Processed Web-Crawled Corpora". In: Language Resources and Evaluation 43 (3), 209-226.
  • Keine Stichwörter