Das Korpus esTenTen umfasst eine sehr große Datenmenge (mehr als 27 Mrd. Wörter) an Online-Texten, die in unterschiedlichen spanischsprachigen Ländern gesammelt wurde. esTenTen ist Teil der TenTen Korpora, die mehr als 40 Sprachen erfassen.

Sprache

Spanisch

Varietät

Standard

Sprachliche Realisierung

schriftlich

Umfang

ca. 27 Mrd. Wörter, ca. 31 Mrd. Tokens

Medium

Online-Texte

-Spanish Web corpus 2018 (esTenTen18)

-Spanish Web corpus 2011 (esTenTen11)

Geographischer Ursprung

Argentinien, Bolivien, Chile, Costa Rica, Dominikanische Republik, Ecuador, El Salvador, Guatemala, Honduras, Kolumbien, Kuba, Mexiko, Nicaragua, Paraguay, Peru, Spanien, Uruguay, Venezuela. [online]

Zeitliche Einordnung

2011, 2018 (Februar bis April)

Form der Daten

Texte aus dem Internet, wovon jeweils ein Ausschnitt direkt einsehbar ist. Zugriff auf den kompletten Text wird durch einen Klick auf die Quelle [URL] ermöglicht.

Annotation

lemmatisiert, part-of-speech-annotiert, Wort-Verbindungen, authentische Beispiele im Kontext, Zeitpunkt des crawlings

Mögliche Suchabfragen

Mit Hilfe unterschiedlicher Tools sehr detaillierte Suchabfragen möglich (z.B. Wortart, Frequenz, etc.)

Herausgeber

Kilgarriff, A., Baisa, V., Bušta, J., Jakubíček, M., Kovář, V., Michelfeit, J., Rychlý, P., Suchomel, V.

Nutzungsvoraussetzungen

Registrierung erforderlich oder Zugang mittels Instituts-Account

Link

https://www.sketchengine.eu/estenten-spanish-corpus/