Der XCS-Verbund basiert auf der Verwendung gemeinsamer Ressourcen durch die teilnehmenden Rechner. Fällt ein Rechner aus, so müssen die vom ausgefallenen Rechner belegten Ressourcen wieder verfügbar gemacht werden, um den XCS-Verbund unbehindert weiterführen zu können.
Der Ausfall eines Partners wird von den einzelnen Teilnehmern durch die beiden Mechanismen „Plattenüberwachung“ und „Verbindungsüberwachung“ festgestellt. Darüber hinaus stimmen sich die am XCS-Verbund beteiligten Rechner ab, ob der Partner tatsächlich von allen im Verbund verbleibenden Teilnehmern nicht mehr als aktiv gesehen wird. Der Zustand des Partners bezüglich dieser drei Komponenten wird zu den nachfolgend beschriebenen Fehlerklassen zusammengefasst.
Partner ausgefallen
Ein Rechner nimmt dann einen Partnerausfall an, wenn gleichzeitig (d.h. innerhalb des für die Überwachungsalgorithmen vorgegebenen, von FAIL-DETECTION-LIMIT abgeleiteten Intervalls)die Plattenüberwachung das Ausbleiben der Lebendmeldungen des Partners auf allen gemeinsamen Shared-Pubsets feststellt
die Verbindungsüberwachung das Ausbleiben der Lebendmeldung des Partners auf das Überwachungstelegramm des Rechners über die MSCF-Verbindung feststellt.
der Partner für alle anderen am XCS-Verbund beteiligten Rechner nicht mehr als aktiv sichtbar ist.
Partnerstatus unbekannt
Der Partner ist für den Rechner und alle anderen am XCS-Verbund beteiligten Rechner nicht mehr als aktiv sichtbar. Es kann jedoch auf Grund des zeitlichen Abstandes zwischen dem Ausbleiben der Lebendmeldungen und dem Verbindungsausfall oder wegen eines anderen Fehlers in Bezug auf einen Überwachungspfad ein Ausfall nicht unterstellt werden.Verbindungsverlust
Der Partner ist für den Rechner nicht mehr als aktiv sichtbar, jedoch für einen anderen Teilnehmer am XCS-Verbund. In diesem Fall wird kein Automatismus ausgelöst, sondern eine Entscheidung der Systembetreuung angefordert (siehe Kapitel „Verbindungsverlust im XCS-Verbund“).
Das Verhalten bei „Partner ausgefallen“ lässt sich über den MSCF-Konfigurationsparameter RECOVERY-START (siehe "Globale Steuerungsparameter") steuern: Entweder erfolgt eine automatische Behandlung durch das System oder es wird eine Entscheidung der Systembetreuung bezüglich zu treffender Maßnahmen angefordert. Beim „Partnerstatus unbekannt“ wird stets eine Entscheidung der Systembetreuung angefordert.
Automatische Fehlerbehandlung
Bei Fehlerklasse „Partner ausgefallen“ wird die zur Freigabe der vom ausgefallenen Rechner belegten globalen Ressourcen erforderliche Fail-Rekonfiguration automatisch gestartet.
Entscheidung der Systembetreuung
Bei Fehlerklasse „Partnerstatus unbekannt“ oder wenn die automatische Fehlerbehandlung durch eine RECOVERY-START-Einstellung verboten ist, wird auf den Bedienplätzen aller im Verbund verbleibenden Teilnehmer mit der zu beantwortenden Meldung MCS1100 eine Entscheidung der Systembetreuung angefordert. Die Systembetreuung kann dann:
an einem beliebigen Teilnehmer durch entsprechende Beantwortung der Meldung die Fail-Rekonfiguration starten. Folgende Eingabemöglichkeiten stehen zur Wahl:
MXCM-<auftragskennzeichen der konsolmeldung>.CRASH
(CRASH:MXCM-<auftragskennzeichen der konsolmeldung>.MTERM
(MTERM:
Die noch am XCS-Verbund teilnehmenden Rechner führen eine Recovery durch. Der ausgefallene Rechner wird aus dem XCS-Verbund entfernt.
Eine Fail-Rekonfiguration darf nur gestartet werden, wenn der Rechner tatsächlich ausgefallen oder gewährleistet ist, dass der Rechner nicht mehr auf die gemeinsam genutzten Ressourcen (Kommunikation, Shared-Pubsets und Shared-GS) zugreifen kann.den Verbindungsfehler beheben, sofern lediglich die Kommunikation (und das Plattenprotokoll) zwischen den beiden Rechnern ausgefallen ist. Die Unterbrechung des Plattenprotokolls ist für den XCS-Betrieb von untergeordneter Bedeutung.
falls der Verbindungsverlust nicht behoben werden kann, die Teilnahme des entfernten Rechners am XCS-Verbund dort über das Kommando STOP-SUBSYSTEM MSCF, SUBSYSTEM-PARAMETER='FORCE=YES' abbrechen und anschließend die Meldung MCS1101 mit MTERM beantworten.
Die Störung der XCS-Konfiguration bleibt solange bestehen, bis eine Fail-Rekonfiguration durchgeführt und der ausgefallene Rechner aus dem XCS-Verbund entfernt wurde oder, falls kein Ausfall vorliegt, die Verbindungen zum Partner wieder aufgebaut sind.