Fehler in einem Rechenzentrums sorgt für Ausfall vieler Foren

10.05.2017 21:37 (zuletzt bearbeitet: 10.05.2017 21:51)
#1 Fehler in einem Rechenzentrums sorgt für Ausfall vieler Foren
avatar
Administrator

Sehr geehrte Damen und Herren,

leider kam es heute zu einem schwerwiegenden Ausfall am Rechenzentrums-Standort Berlin.

Seit 14 Uhr waren dadurch 50% der Foren vollständig Offline.
Gegen 14:30 konnte die Anzahl der betroffenen Foren auf ca. 15% reduziert werden.
Erst gegen 21:00 Uhr waren alle Foren wieder Online


Leider war es aufgrund von 2 defekten Servern notwendig die betroffenen Server vollständig zu ersetzen.
Für einen raschen Umzug auf einen neuen Server stand jedoch als Failover nur ein Server bereit.
Dieser konnte umgehend gestartet werden, sodass die betroffenen Server nur mit kurzer Wartezeit von ca. 10 Minuten wieder Online waren.

Für den zweiten Server musste ein Backup manuell eingespielt werden. Dieser Vorgang inklusive Anpassung der Systeme dauerte leider mehrere Stunden.
Zum Abend hin waren dann zwischen 20:00 und 21:00 Uhr auch alle übrigen Foren wieder Online.


Für den Hintergrund zum Ausfall des Berliner Rechenzentrums zitiere ich Status Meldungen des Rechenzentrums:

Zitat
Wir hatten heute eine routinemäßige Traforeinigung. Dazu muss alles auf die Diesel geschaltet werden. Nachdem das erledigt war, sollte der Diesel wieder rausgenommen werden und alles wieder ans normale Netz.
Den Schalter, der die Synchronisation macht, sprich die Sinuskurven gleich- und dann umschaltet, hat es dabei zerrissen.

Das Problem bei diesem Schalter ist, dass sowohl Diesel, als auch Trafostrom an ihm hängen. Wenn der weg ist, gehen beide Stromquellen nicht mehr. Das haben die USV-Anlagen eine Weile mitgemacht, bevor Segmente davon ausstiegen. Bis wir das alles überbrückt hatten, hat es etwas gedauert.
Danach lief alles eine Weile über die Diesel.
Als der Starkstrommann kam und sich das näher angeschaut hat, haben wir es manuell wieder zurück auf den Trafostrom gestellt.
Die Batterien der USV sollten sich langsam wieder aufladen.


Zitat
Achtung: Teile unserer Infrastruktur laufen derzeit aufgrund des Defekts an der Stromverteilung im betroffenen Rechenzentrum ohne USV/Diesel. Die USV/Diesel soll nach aktueller Info vom Rechenzentrum in der Nacht von Donnerstag auf Freitag wieder aktiviert werden. Eventuell wird es dadurch in der Nacht von Donnerstag auf Freitag zu einem weiteren Ausfall kommen.


Auch wenn die Ursache dieses Ausfalls nicht in unserem Verschulden liegt, werden wir daraus lernen.
Soviel kann ich Ihnen versprechen.

Mit freundlichen Grüßen,
Joh. Voß


xobor.de · Miranus GmbH · Wir helfen gerne - Unterstützen Sie Xobor durch die Buchung eines Premium Tarifs.

 Antworten

 Beitrag melden
Bereits Mitglied?
Jetzt anmelden!
Mitglied werden?
Jetzt registrieren!