...
Sprache | Italienisch |
Varietät | Standard |
Sprachliche Realisierung | schriftlich (Internet) |
Umfang | ca. 250 Mio. Wörter |
Medium | Texte mit einer Länge von mehr als 150 Wörtern, insgesamt ca. 380.000 Dokumente aus mehr als 1.000 Webseiten. 260.000 Dokumente aus Wikipedia, ca. 65.000 aus Blogs. |
Geographischer Ursprung | [Italien] |
Form der Daten | XML-Dokument, Frequenzlisten, Dokumentation zu Lemmata und POS |
Annotation | lemmatisiert, part-of-speech-annotiert |
Quelle/Herausgeber | PAISÀ-Projekt |
Link | |
Zum Zitieren: | Lyding, V. / Stemle, E. / Borghetti, C. / Brunello, M. / Castagnoli, S. / Dell'Orletta, F. / Dittmann, H. / Lenci, A. / Pirrelli, V. ( 2014): ". The PAISÀ Corpus of Italian Web Texts" In: . Proceedings of the 9th Web as Corpus Workshop (WaC-9), Association for Computational Linguistics, Gothenburg, Sweden, April 2014. pp. 36-43. |