Korpora und Textdatenbanken

Grundlagen der Korpusarbeit

Was ist eigentlich ein Korpus?

Korpora sind Textsammlungen, die als Datengrundlage für die Untersuchung sprachlicher Phänomene dienen. Sie sind computerlesbar und häufig sehr umfangreich, was die maschinelle Auswertung und statistische Erfassung bestimmter Wörter, ihrer Flexionsformen oder ihrer Verwendungskontexte enorm erleichtert.

Jedes Korpus deckt einen ganz konkreten Referenzbereich ab und kann dadurch zur Beantwortung bestimmter sprachwissenschaftlicher Untersuchungsfragen genutzt werden. Das sehr bekannte FRANTEXT-Korpus beispielsweise umfasst 4500 vorwiegend literarische Texte des Französischen vom 12. Bis zum 21. Jahrhundert. Es eignet sich zur Untersuchung der diachronischen Entwicklung der geschriebenen Sprache oder zur Charakterisierung sprachlicher Besonderheiten in bestimmten literarischen Strömungen. Genauso gibt es aber auch Korpora zur gesprochenen Sprache in Form transkribierter Interviews (ESLO, CLAPI), Korpora zur Sprache im Internet (TWITA, WaCky), zur Jugendsprache (COLA) usw. Bevor man ein sprachliches Phänomen untersucht, sollte man sich stets fragen, ob das ausgewählte Korpus die nötige Repräsentativität für die Forschungsfrage aufweist. Um die Repräsentativität zu erhöhen, kann man bestehende Korpora auf Teilbereiche einschränken oder selbst Daten für ein Arbeitskorpus erheben.

Korpora sind stets an texttypologischen Kriterien orientiert, das heißt, sie umfassen Exemplare einer oder mehrerer genau definierter Textsorten, z.B. Literatur (oder konkreter: Mittelalterliche Ritterepen, spanischsprachige Romane des 20. Jahrhunderts), Zeitungen, Gesetztestexte, Blogs, Twitter-Mitteilungen, transkribierte Sprachaufnahmen (Dialoge, Interviews, Telefonate, Radiosendungen…). Sie werden entweder mit dem Ziel zusammengestellt, einen breiten Überblick über ein Genre zu vermitteln, oder bereits mit der Absicht, eine bestimmte Forschungsfrage zu beantworten. Im Internet (oder auch auf CDRom/DVD) werden sie schließlich einer großen forschenden Allgemeinheit zur weiteren Ergebnisgewinnung zur Verfügung gestellt.

Um sie verlässlich durchsuchbar und im Internet verfügbar zu machen, werden Korpora in adäquaten Dateiformaten aufbereitet. Häufig wird hierbei XML (Extensible Markup Language) verwendet, eine Auszeichnungssprache, die mit einer Vielzahl von Textverarbeitungsprogrammen (z.B. Transcriber, Oxygen, TextPad, SCP) kompatibel ist und somit eine weitere Aufbereitung der Texte sowie die Suche nach bestimmten sprachlichen Phänomenen mit und ohne Suchmaske ermöglicht. XML ermöglicht auch die Integration von Metadaten in ein Textdokument. Hierzu zählen Informationen zu Sprache, Varietät und Textsorte, zum Autor bzw. Sprecher und dessen Alter, Geschlecht und sozialem Status, zum Zeitpunkt der Niederschrift/Veröffentlichung/Aufnahme der Daten sowie ggf. zu den Modalitäten der Transkription. All diese Informationen sind unabdingbar für die Kontextualisierung der Daten und der Klärung ihrer Repräsentativität für zu beantwortende Forschungsfragen.

[Fortsetzung folgt…]

cf. hierzu auch: Gerstenberg, Annette (2013): Arbeitstechniken für Romanisten. Eine Anleitung für den Bereich Linguistik. Berlin/Boston: De Gruyter.

Weitere hilfreiche Literatur zum Thema Korpora und Korpuslinguistik ist unter unten stehendem Link zu finden

Wikis der Freien Universität Berlin

Seitenhierarchie

Grundlagen der Korpusarbeit

Was ist eigentlich ein Korpus?

Französische Korpora

Spanische Korpora

Italienische Korpora

Portugiesische Korpora

Rumänische Korpora

Mehrsprachige Korpora

LIteratur zur Korpuslinguistik