Seitenhistorie

Sehr große Sammlung sehr großer Korpora aus Internettexten, auch für Französisch (1,6 Mrd. Wörter) und Italienisch (2 Mrd. Wörter).http://wacky.sslmit.unibo.it/doku.php

Sprache		Varietät / Sprachstufe	Englisch, Französisch, Deutsch, Italienisch
Sprachliche Realisierung	schriftlich
Umfang
Medium
bis zu 2 Milliarden Wörter pro Korpus
Medium	Acht Internet-Korpora in vier Sprachen, darunter ukWac, frWac, deWac und itWac. Diese Korpora wurden anhand von Stichwortlisten aus den Domains der jeweiligen Sprache extrahiert. Verfügbar sind auch annotierte Versionen der französischen und englischen Wikipedia.	Geographischer Ursprung
Zeitliche Einordnung
Daten zu Sprecher(n)/Verfasser(n)
aktuell
Form der Daten	große Textmengen aus dem Internet, online durchsuchbar. Download auf Anfrage möglich.
Format	HTML
Annotation	zum Teil Lemmatisierung und part-of-speech-Annotation, zum Teil syntaktisches Parsing
Mögliche Suchabfragen	Wörter, Sätze, Lemmata, Wortarten, reguläre Ausdrücke. Die Suchergebnisse werden mit Konkordanzen ausgegeben.
Quelle/Herausgeber	Universitäten Bologna, Pisa, Trento, Stuttgart, Darmstadt, Hildesheim, Naval, Oslo, Pecara, Leeds und Tokio
Nutzungsvoraussetzungen		Link	Zugang frei
Link	Einführung: http://wacky.sslmit.unibo.it/doku.php Korpus-Übersicht: http://wacky.sslmit.unibo.it/doku.php Suchmaske: http://nl.ijs.si/noske/wacs.cgi/first_form?corpname=itwac;align=
Literatur	M. Baroni, S. Bernardini, A. Ferraresi and E. Zanchetta (2009): "The WaCky Wide Web: A Collection of Very Large Linguistically Processed Web-Crawled Corpora". In: Language Resources and Evaluation 43 (3), 209-226. Download

Wikis der Freien Universität Berlin

Seitenhierarchie

Versionen im Vergleich

Alte Version 2

Neue Version Aktuell

Schlüssel