Starten wir mit ein paar einfacheren Metazeichen, den simplen Platzhaltern, Positionsmarkern und Wiederholungsoperatoren.
Nehmen wir an, wir würden folgender (nicht ganz schlüssiger) Auflistung ausschließlich die Pronomen der zweiten Person Singular entnehmen wollen:
...
Die Frage aller Fragen: Was soll ich damit eigentlich anfangen können? Ich kann zum Beispiel Häufigkeiten für bestimmte Phänomene erfassen. Will ich in einem Korpus des Französischen beispielsweise in Erfahrung bringen, wie häufig das Verb finir in all seinen Formen vorkommt, so kann ich dies sehr zeitsparend mit \<fini.{0,6}\>_ (j'ai fini bis nous finissions) oder einfach mit \<fini.*?\> erledigen (Eine anschließende Bereinigung der Ergebnisse kann dennoch nötig sein!). Ich kann auch nach flektierten Formen des Italienischen suchen, ohne jede Form einzeln eintippen zu müssen, z.B. <\san.\> für sano, sana, sani und sane. oder zwei variierende Formen wie comprare und comperare durch compe?rare erfassen. Auch kann ich mir anzeigen lassen, wie viel von dem sprachlichen Kontext des Gesuchten ich in meine Ergebnisse integrieren will. Interessiert mich der Satzkontext von compe?rare, kann ich mir durch .{50}compe?rare_.{50} jeweils 50 Zeichen vor und nach compe?rare_ anzeigen lassen.
Info | ||
---|---|---|
| ||
Um das richtige Muster zu definieren, sollte ich mir Gedanken darüber machen:
|
...