In Unicode kann die Codierung eines Grundzeichens mit diakritischem Zeichen unterschiedlich sein. Ein diakritisches Zeichen ist ein Zusatzzeichen (z.B. Akzent), um die Aussprache oder Betonung eines Buchstabens näher zu bezeichnen. D.h. in Unicode kann es für ein Zeichen mehrere Codierungen geben. So kann z.B. das Zeichen „Å“ auch als Zeichenfolge von „A“ und „°“ geschrieben werden. Diese Eigenschaft von Unicode ist für die Programmierung unter Umständen hinderlich. Um gleichen Zeichen mit unterschiedlicher Codierung ein einheitliches Format zuzuordnen, bietet PERCON die Normalisierungsfunktion COMPOSED an. COMPOSED fügt ein Grundzeichen mit den zugehörigen diakritischen Zeichen zu einem einzigen Zeichen zusammen. Normalisiert werden kann jedoch nur, wenn der Eingabedatei und/oder der Ausgabedatei die Unicode-Variante UTF-16 zugeordnet ist.
Folgende Formatkombinationen sind möglich:
Nur der Eingabedatei ist die Unicode-Variante UTF-16 zugeordnet.
Bei einer angeforderten Normalisierung wird zuerst normalisiert und dann konvertiert.Nur der Ausgabedatei ist die Unicode-Variante UTF-16 zugeordnet.
Bei einer angeforderten Normalisierung wird zuerst konvertiert und dann normalisiert.Sowohl der Eingabedatei als auch der Ausgabedatei ist die Unicode-Variante UTF-16 zugeordnet. Die Konvertierung dient nur der Normalisierung.
Weder der Eingabedatei noch der Ausgabedatei ist die Unicode-Variante UTF-16 zugeordnet. Die angeforderte Normalisierung wird ignoriert.
Hinweis
Die Normalisierung erfolgt nicht automatisch, sie muss immer vom Anwender angefordert werden (siehe UNICODE-NORMALIZE in der ASSIGN-OUTPUT-FILE-Anweisung). Der Vorgang der Normalisierung ist sehr zeitintensiv, deshalb sollte er vom Anwender nur dann gefordert werden, wenn er wirklich erforderlich ist.