The Spanish Web corpus (esTenTen)

Das Korpus esTenTen umfasst eine sehr große Datenmenge (mehr als 27 Mrd. Wörter) an Online-Texten, die in unterschiedlichen spanischsprachigen Ländern gesammelt wurde. esTenTen ist Teil der TenTen Korpora, die mehr als 40 Sprachen erfassen.

Sprache	Spanisch
Varietät	Standard
Sprachliche Realisierung	schriftlich
Umfang	ca. 27 Mrd. Wörter, ca. 31 Mrd. Tokens
Medium	Online-Texte -Spanish Web corpus 2018 (esTenTen18) -Spanish Web corpus 2011 (esTenTen11)
Geographischer Ursprung	Argentinien, Bolivien, Chile, Costa Rica, Dominikanische Republik, Ecuador, El Salvador, Guatemala, Honduras, Kolumbien, Kuba, Mexiko, Nicaragua, Paraguay, Peru, Spanien, Uruguay, Venezuela. [online]
Zeitliche Einordnung	2011, 2018 (Februar bis April)
Form der Daten	Texte aus dem Internet, wovon jeweils ein Ausschnitt direkt einsehbar ist. Zugriff auf den kompletten Text wird durch einen Klick auf die Quelle [URL] ermöglicht.
Annotation	lemmatisiert, part-of-speech-annotiert, Wort-Verbindungen, authentische Beispiele im Kontext, Zeitpunkt des crawlings
Mögliche Suchabfragen	Mit Hilfe unterschiedlicher Tools sehr detaillierte Suchabfragen möglich (z.B. Wortart, Frequenz, etc.)
Herausgeber	Kilgarriff, A., Baisa, V., Bušta, J., Jakubíček, M., Kovář, V., Michelfeit, J., Rychlý, P., Suchomel, V.
Nutzungsvoraussetzungen	Registrierung erforderlich oder Zugang mittels Instituts-Account
Link	https://www.sketchengine.eu/estenten-spanish-corpus/

Seitenhierarchie

The Spanish Web corpus (esTenTen)