Das Korpus esTenTen umfasst eine sehr große Datenmenge (mehr als 27 Mrd. Wörter) an Online-Texten, die in unterschiedlichen spanischsprachigen Ländern gesammelt wurde. esTenTen ist Teil der TenTen Korpora, die mehr als 40 Sprachen erfassen.
Sprache | Spanisch |
Varietät | Standard |
Sprachliche Realisierung | schriftlich |
Umfang | ca. 27 Mrd. Wörter, ca. 31 Mrd. Tokens |
Medium | Online-Texte -Spanish Web corpus 2018 (esTenTen18) -Spanish Web corpus 2011 (esTenTen11) |
Geographischer Ursprung | Argentinien, Bolivien, Chile, Costa Rica, Dominikanische Republik, Ecuador, El Salvador, Guatemala, Honduras, Kolumbien, Kuba, Mexiko, Nicaragua, Paraguay, Peru, Spanien, Uruguay, Venezuela. [online] |
Zeitliche Einordnung | 2011, 2018 (Februar bis April) |
Form der Daten | Texte aus dem Internet, wovon jeweils ein Ausschnitt direkt einsehbar ist. Zugriff auf den kompletten Text wird durch einen Klick auf die Quelle [URL] ermöglicht. |
Annotation | lemmatisiert, part-of-speech-annotiert, Wort-Verbindungen, authentische Beispiele im Kontext, Zeitpunkt des crawlings |
Mögliche Suchabfragen | Mit Hilfe unterschiedlicher Tools sehr detaillierte Suchabfragen möglich (z.B. Wortart, Frequenz, etc.) |
Herausgeber | Kilgarriff, A., Baisa, V., Bušta, J., Jakubíček, M., Kovář, V., Michelfeit, J., Rychlý, P., Suchomel, V. |
Nutzungsvoraussetzungen | Registrierung erforderlich oder Zugang mittels Instituts-Account |
Link | https://www.sketchengine.eu/estenten-spanish-corpus/ |