ProTerm Terminologiewerkzeug
  Struktur   Text   News   Events   Links   Downloads      Login  
  Factlist & Suchen  

  Home > Text > RegEx - Reguläre Ausdrücke
   Recent Changes (RSS 2.0) - proterm
Eine neuere Version dieses Facts existiert bereits.. (anzeigen:)

RegEx - Reguläre Ausdrücke
 

Reguläre Ausdrücke (UNIX-Syntax)


Ich habe gesucht - und nichts übersichtlicheres und gut beschriebenes gefunden als den u.a. Link auf Wikipedia.
http://de.wikipedia.org/wiki/Regul%C3%A4rer_Ausdruck

Hier eine Auflistung einiger gängiger Regulärer Ausdrücke

SymbolFunktion

Weist das nächste Zeichen als Sonderzeichen aus. "n" steht für den Buchstaben "n", " " für einen Zeilenvorschub bzw. das NewLine-Zeichen.
^Steht für den Zeilenanfang.
$Steht für das Zeilenende.
*Steht für das beliebig häufige Auftreten (auch kein Mal) des vorangehenden Zeichens.
+Steht für das ein- oder mehrmalige Auftreten des vorangehenden Zeichens.
.Steht für ein beliebiges Zeichen außer einem Zeilenwechsel.
(Ausdruck)Klammert einen im "Ersetzen"-Befehl zu verwendenden Ausdruck. Ein regulärer Ausdruck kann sich aus bis zu 9 geklammerten Ausdrücken zusammensetzen, die gemäß der Reihenfolge ihres Auftretens im regulären Ausdruck durchnummeriert sind.
[xyz]Eine Zeichenmenge. Steht für ein beliebiges Zeichen in den Klammern.
[^xyz]Eine inverse Zeichenmenge. Steht für ein beliebiges Zeichen, das NICHT in den Klammern steht.
dSteht für eine Ziffer. Entspricht [0-9].
DSteht für ein Zeichen, das keine Ziffer ist. Entspricht [^0-9].
  Steht für einen Blattvorschub bzw. ein FormFeed-Zeichen.

Steht für einen Zeilenvorschub bzw. ein NewLine-Zeichen.

Steht für einen Wagenrücklauf bzw. ein Return-Zeichen.
sSteht für einen beliebigen Leerraum, einschließlich Leerzeichen, Tabulator, Seitenvorschub usw. (aber nicht Zeilenwechsel).
SSteht für einen beliebigen Nicht-Leerraum (aber nicht Zeilenwechsel).

Steht für ein Tabulator-Zeichen.
VSteht für ein vertikales Tabulator-Zeichen.
wSteht für ein beliebiges Zeichen für Wörter, einschließlich dem Unterstrich.
WSteht für ein beliebiges Zeichen, das nicht für Wörter verwendet wird.

 

 

Einige Beispiele:

 

Im Stopp-Wort-Editor sollen alle Formen von abgebaut (abgebauten, abgebautes,...) festgelegt werden:

abgebaut[a-z]* 

 

Im Idiom-Editor soll festgelegt werden, dass das Stop-Wort of in alle Vorkommnisse von Library of ... erhalten bleiben soll:

[Ll]ibrary [Oo]f [A-Z,a-z]*

 

Ein "und" soll dann nicht als Stoppwort behandelt werden, wenn davor ein Wort mit Bindestrich steht - z.B. aus "Hinweise für die einzelfallbezogene Erfassung von Verdachtsflächen rüstungs- und kriegsbedingter Altlasten." soll "Verdachtsflächen rüstungs- und kriegsbedingter Altlasten" heraus gelöst werden.

 RICHTIG: s[a-zäöüß0-9-]*- und [a-zäöüß0-9-]*s

FALSCH: s[a-z, ä, ö, ü, 0-9, ß, -]*- und [a-z, ä, ö, ü, 0-9, ß, -]*s (bildet ganze Absätze)

es ginge auch mit "sw*- und w*s", allerdings kommt es zu einer Zeichentrennung innerhalb eines Wortes, wenn Umlaute vorhanden sind.

noch besser:

s[a-zäöüß0-9-]*- (und|and) [a-zäöüß0-9-]*s

 


 

Und hier noch ein Link auf ein Auswertungs.Tool:

http://regexp-evaluator.de/




Metainfo:
AutorIn: Hans Christian Pilles; Publiziert von: Hans Christian Pilles (HCPilles)
factID: 283538.5 (...Archiv); Publiziert am 11 Sep. 2007 13:54