Page tree
Skip to end of metadata
Go to start of metadata

You are viewing an old version of this page. View the current version.

Compare with Current View Page History

« Previous Version 3 Next »

Sammlung sehr großer Korpora aus Internettexten, auch für Französisch (1,6 Mrd. Wörter) und Italienisch (2 Mrd. Wörter).

 

Sprache

Englisch, Französisch, Deutsch, Italienisch

Sprachliche Realisierung

schriftlich

Umfang

bis zu 2 Milliarden Wörter pro Korpus

Medium

Acht Internet-Korpora in vier Sprachen, darunter ukWac, frWac, deWac und itWac. Diese Korpora wurden anhand von Vokabel- und Frequenzlisten aus den Domains der jeweiligen Sprache extrahiert. Verfügbar sind auch annotierte Versionen der französischen und englischen Wikipedia.

Geographischer Ursprung

 

Zeitliche Einordnung

 

Daten zu Sprecher(n)/Verfasser(n)

 

Form der Daten

 

Format

 

Annotation

 

Mögliche Suchabfragen

 

Quelle/Herausgeber

 

Nutzungsvoraussetzungen

 

Link

Einführung: http://wacky.sslmit.unibo.it/doku.php

Korpus-Übersicht: http://wacky.sslmit.unibo.it/doku.php

LiteraturM. Baroni, S. Bernardini, A. Ferraresi and E. Zanchetta (2009): "The WaCky Wide Web: A Collection of Very Large Linguistically Processed Web-Crawled Corpora". In: Language Resources and Evaluation 43 (3), 209-226.
  • No labels