Sammlung von Texten und Transkriptionen verschiedener Korpora, die mithilfe von TreeTagger POS-annotiert und Lemmatisiert wurden.

 

Sprache

Französisch

Sprachliche Realisierung

schriftlich und mündlich

Umfang

gesprochene Sprache: ca. 102.000 Tokens

geschriebene Sprache: ?

Medium

Lemmatisiertes und morphosyntaktisch annotiertes Korpus, bestehend aus den Teilkorpora L'Est Républicain, TCOF und Frantext.

Das verwendete Annotationsschema ist ebenfalls verfügbar und kann für das Tagging ähnlicher Korpora verwendet werden.

Geographischer Ursprung

Frankreich

Zeitliche Einordnung

Teilkorpus L'Est Républicain: 1999, 2002, 2003

Teilkorpus Frantext: 18.-20. Jh.

Teikorpus TCOF: 1980er und 1990er-Jahre

Form der Daten

PERCEO Oral ist im Textformat mit dem dazugehörigen Annotationsschema und der TreeTagger-Datei herunterladbar

Format

txt, par

Annotation

mehrfach korrigierte Lemmatisierung und POS-Annotation mit TreeTagger

Mögliche Suchabfragen

Lemma, Wortart

Quelle/Herausgeber

ATILF (CNRS - Université de Lorraine) & INIST (CNRS) - LIPN / CNRTL

Nutzungsvoraussetzungen

Zugang frei

Link

http://cnrtl.fr/corpus/perceo/