Sammlung von Texten und Transkriptionen verschiedener Korpora, die mithilfe von TreeTagger POS-annotiert und Lemmatisiert wurden.
Sprache | Französisch |
Sprachliche Realisierung | schriftlich und mündlich |
Umfang | gesprochene Sprache: ca. 102.000 Tokens geschriebene Sprache: ? |
Medium | Lemmatisiertes und morphosyntaktisch annotiertes Korpus, bestehend aus den Teilkorpora L'Est Républicain, TCOF und Frantext. Das verwendete Annotationsschema ist ebenfalls verfügbar und kann für das Tagging ähnlicher Korpora verwendet werden. |
Geographischer Ursprung | Frankreich |
Zeitliche Einordnung | Teilkorpus L'Est Républicain: 1999, 2002, 2003 Teilkorpus Frantext: 18.-20. Jh. Teikorpus TCOF: 1980er und 1990er-Jahre |
Form der Daten | PERCEO Oral ist im Textformat mit dem dazugehörigen Annotationsschema und der TreeTagger-Datei herunterladbar |
Format | txt, par |
Annotation | mehrfach korrigierte Lemmatisierung und POS-Annotation mit TreeTagger |
Mögliche Suchabfragen | Lemma, Wortart |
Quelle/Herausgeber | ATILF (CNRS - Université de Lorraine) & INIST (CNRS) - LIPN / CNRTL |
Nutzungsvoraussetzungen | Zugang frei |
Link |