Das Korpus besteht aus online Texten (knapp 5 Mrd. Wörter), die durch web crawling gesammelt wurden. Die Texte wurden dann mit automatisierten Tools aufbereitet. Die ‘TenTen’ Korpora umfassen über 30 Sprachen.
Sprache | Italienisch |
Sprachstufe | Standard |
Sprachliche Realisierung | schriftlich |
Umfang | ca. 5 Mrd. Wörter |
Medium | Online-Texte |
Geographischer Ursprung | Italien [Online] |
Form der Daten | Texte aus dem Internet, die aufbereitet werden, indem unnötige Informationen gelöscht werden (URLs, Duplikate) |
Format | online durchsuchbar |
Annotation | lemmatiziert, POS-Tags |
Mögliche Suchabfragen | SketchEngine hat mehrere Tools, die unterschiedliche Suchabfragen ermöglichen (Konkordanzen, Synonyme, n-grams usw.) |
Quelle/Herausgeber | Jakubíček, M., Kilgarriff, A., Kovář, V., Rychlý, P., & Suchomel, V., Masaryk University / Lexical Computing |
Nutzungsvoraussetzungen | Anmeldung über SSO Universität Potsdam |
Link | |
Zum Zitieren: | Jakubíček, M., Kilgarriff, A., Kovář, V., Rychlý, P., & Suchomel, V. 2013. The TenTen corpus family. 7th International Corpus Linguistics Conference CL, 125–127. |