Quelle anzeigen

Der Kopf

Der XML-Kopf einer Transcriber-Datei verfügt typischerweise über eine XML-Deklaration und eine Dokumenttypdeklaration:

Textdaten Romanistik > Transcriber: Metainformationen zu Beginn des XML-Dokuments > image2015-6-30 14:42:23.png

Hier wird auch auf die Datei trans-14.dtd verwiesen, die Regeln zur Validität von .trs-Dokumenten definiert.

Das <Trans>-Element

Das Trans-Element folgt auf den Kopf der Transcriber-Datei. Es handelt sich hierbei um das Wurzelelement, das - Kopf ausgenommen - die gesamte Datei rahmt.

Textdaten Romanistik > Transcriber: Metainformationen zu Beginn des XML-Dokuments > image2015-6-30 14:50:42.png

Auch hier sind Daten versteckt, die auf der Benutzeroberfläche größtenteils unsichtbar bleiben. Das Attribut scribe verweist auf den Autor, der unter "Options" > "General..." auf der Benutzeroberfläche eingetragen werden kann. audio_filename bezeichnet die Audiodatei, die in der Transkription zugrunde liegt. Sie wird als Attribut vermerkt, sobald sie auf der Benutzeroberfläche geladen wird. Befindet sich im Order der geöffneten Transkription keine Audiodatei, die diesen Namen trägt, wird der Nutzer beim Öffnen der Datei in Transcriber dazu aufgefordert, eine Audio-Datei zu wählen.

Darüber sind hier auch sich automatisch aktualisierende Informationen zur Version verzeichnet (version und version_date). version nennt die aktuelle Version, indem es von 1 hochzählt, während version_date das Datum der letzten Modifikation in der Form YYMMDD anzeigt.

Topics und Speakers

Der eigentlichen Transkription gehen schließlich auch die Elemente Topics und Speakers voraus. Hier wird das, was in der Transkription als Wert des Attributs topic bzw. speaker auftritt, und das, was in der Benutzeroberfläche dargestellt wird, zusammengeführt. Für das aktuelle Transkriptuionsbeispiel sieht der Bereich folgendermaßen aus:

Textdaten Romanistik > Transcriber: Metainformationen zu Beginn des XML-Dokuments > image2015-6-30 11:57:37.png

Das Attribut id verweist auf die Kodierung des Sprechers/ des Themas, wie sie im weiteren Dokument gebraucht wird, das Attribut desc bzw. name ordnet dieser ID eine Beschreibung zu, die in der Benutzeroberfläche angezeigt wird. Damit Transcriber eine solche Übersetzung von der XML-ID in die jeweilige Entsprechung auf der Benutzeroberfläche bewerkstelligen kann, müssen die entsprechenden Tochterelemente von <Topics> und <Speakers> den Namen <Topic>, bzw. <Speaker> tragen, da dies von Transcriber sonst nicht bewerkstelligt werden kann. Die Speaker-Elemente können darüber hinaus optional mit weiteren Attributen versehen werden. Nutzt man alle in Transcriber gegebenen Möglichkeiten, sieht das Tag beispielsweise so aus:

Textdaten Romanistik > Transcriber: Metainformationen zu Beginn des XML-Dokuments > image2015-6-30 13:40:6.png

Die Entsprechung auf der Benutzeroberfläche befindet sich bei den Einstellungen zu den Turnattributen ("Create Speaker"):

Textdaten Romanistik > Transcriber: Metainformationen zu Beginn des XML-Dokuments > image2015-6-30 13:46:55.png

Hier kann nun der Wert für das Attribut name bestimmt werden. Auch lässt sich durch Anklicken der Box spelling checked, in XML über die Werte "yes" oder "no" des Attributs check, angeben ob eine Rechtschreibprüfung für diesen Sprecher erfolgen soll (In der für dieses Turorial benutzten Version 1.5.1. muss hierfür zusätzlich Aspell installiert sein). Die Box global name entspricht im XML-Code dem Attribut scope, das den Wert "global" oder den Wert "local" annehmen kann. Ist scope auf "local" gesetzt, bedeutet dies, dass der Sprecher nur in der aktuellen Datei verwendet wird. Ein Sprecher mit dem scope "global" wird hingegen in ein Speaker Dictionary übernommen und kann dadurch auch in anderen Transkriptionen verwendet werden.

Weitere Angaben betreffen den Dialekt (dialect), der entweder "native" oder "nonnative" sein kann, das Geschlecht (type) mit den Werten "male", "female" und "unknown" und den Akzent (accent), der auf der Benutzeroberfläche in ein Textfeld eingetragen wird. Das Speaker-Tag enthält immer die Attribute id, name, dialect, spell, scope und accent, wobei accent einen Nullwert ("") zugewiesen bekommt, wenn das entsprechende Textfeld leer bleibt. Alle anderen Angaben sind fakultativ. Die id im XML-Code errechnet sich aus der Reihenfolge der erfassten Sprecher.

Bezeichnung auf Benutzeroberfläche	Attribut von <Speaker> in XML	Mögliche Werte in XML	Bedeutung
Name	name	"PB", "Pierre", ...	z.B. spk1 ist PB, spk2 ist Pierre
spelling checked	check	"yes"	Rechtschreibprüfung für diesen Sprecher
spelling checked	check	"no"	Keine Rechtschreibprüfung für diesen Sprecher
global name	scope	"global"	Speicherung des Sprechers im globalen "Speaker Dictionary"
global name	scope	"local"	Keine Speicherung des Sprechers im globalen "Speaker Dictionary"
Type	type	"male", "female", "unknown"	Das Geschlecht des Sprechers ist männlich, weiblich, unbekannt
Dialect	dialect	"native"	Der Dialekt des Sprechers ist nativ
Dialect	dialect	"nonnative"	Der Dialekt des Sprechers ist nicht nativ
Accent	accent	"south", ""	Der Sprecher hat den Akzent south, der Akzent des Sprechers ist nicht angegeben