Geschichten (1)

Ich hatte diese Woche die Gelegenheit, mich mit einigen anderen IT’lern über Dinge auszutauschen, die wir so im Operations-Alltag erlebt haben. Besonders gerne höre ich natürlich immer Geschichten von Banken und Versicherungen, und ich bin da diese Woche nicht zu kurz gekommen. Deswegen, ohne weitere Einleitung:

Bei Bank Eins werden die Kosten, die Privatkunden für ihre Aktiendepots entstehen, einmal im Monat abgerechnet - die Daten werden dann dazu benutzt, die Gebühren via Bankeinzug (logisch!) einzusammeln. Für das Erstellen der Abrechnung wird allerdings nicht einfach auf das normale Reporting zugegriffen (die Daten über Aktienbewegungen etc. sind ja alle schon vorhanden, man muß sie nur auswerten) sondern eine speziell für diesen Zweck erstellte Software genutzt (die auch nichts anderes macht als die entsprechenden DB-Queries zu stellen). Diese Software ist auf einem einzelnen, nicht virtualisierten, Server installiert. Und wie sich herausgestellt hat gibt es zwar durchaus Backups von der Konfiguration des Servers und der Software, nur leider waren im K-Fall die Installationsmedien der Software nicht auffindbar oder die Software via Download beziehbar. Das Zusenden der Medien hat vier Tage gedauert.
Bank Zwei betreibt seit dem Jahr 2006 ein internes Controlling-System (irgendwas mit Kreditvergabe) auf einem Active-Passive-Cluster. Anfang des Jahres ist der aktive Knoten gestorben und der Umzug der Dienste auf den Standby-Server hat überhaupt nicht geklappt. Eine interne Untersuchungskommision hat herausgefunden, daß ein Umzug auf den Standby-Knoten noch nie - also nichtmal nach der Erstinstallation/Inbetriebnahme - getestet wurde.
Versicherung Eins hat über fünf Millionen Euro dafür ausgegeben um sich von einem Team externer Berater das Backup auf die IBM-Software Tivoli TSM umstellen zu lassen. Bestandteil des Vertrags war auch ein automatisiertes Monitoring und Alerting, damit man auch merkt, wenn das Backup einzelner Server fehlschlägt etc. Nach einer größeren SAN-Panne hat man bemerkt, daß viele der Backups, für die das Monitoring in der Vergangenheit “Backup OK” geliefert hatte, noch niemals ohne Fehler gelaufen waren. Es hat sich herausgestellt, daß das Skript, welches vom Monitoring aufgerufen wurde, um den Status eines Backup-Jobs zu ermitteln, von den externen Beratern anscheinend in einen Debugging-Modus versetzt wurde, in dem es stets “OK” zurückgeliefert hat.
Versicherung Zwei hat ein - nach ihren Maßstäben - kleineres SAN-System auf Hardware eines Herstellers, über den ich hier auch schon gebloggt habe, umgezogen. Nach neun Tagen ist das hochverfügbare System einfach aus gegangen. Nach Analyse kam man zu dem Schluß, daß ein Wackelkontakt in der SPS zu diesem Ausfall geführt hat. Der Ausfall wäre jedoch vermeidbar gewesen, hätte man auch wirklich alle Stromstecker des Systems mit den Steckerleisten im Rack verbunden und nicht nur die linke Seite.

Es ist schön zu sehen, daß wir, obwohl wir so klein sind, trotzdem ein soviel höheres Niveau halten können als Firmen, deren Monatsbudget für IT größer ist als das, was wir in einem ganzen Jahr ausgeben.