Heute waren unsere Blogs von etwa 12 Uhr bis rund 17 Uhr nicht erreichbar. (Komischerweise ging es zwischendurch ein paarmal kurz, aber die meiste Zeit lief nichts.)
Es lag, wie auch beim letzten Mal im September, an unserem «Upstream-Provider» Init7. Der heisst so, weil er unsere Server mit dem Internet verbindet, also unsere Daten ins Internet «hochlädt». Init7 hat auf seiner Website ein Trouble Ticket veröffentlicht (allerdings nicht um 12.03 Uhr, wie es im Nachhinein aussieht, sondern erst viel später). Per Mail erreichte mich gegen 19 Uhr dann noch diese Information:
Heute, zwischen 12:00 und 17:00 Uhr ist es zu einem Ausfall in unserer Backbone Infrastruktur gekommen.
Aufgrund einer Fehlkonfiguration auf einem unserer Router, hat es eine unglückliche Verkettung von Umständen im Backbone gegeben. Dies führte zu erheblichen Verbindungsproblemen und verschiedene Kunden waren durch den Ausfall betroffen.
Für uns ist so ein Ausfall eine mittlere Katastrophe. Dass wir einen halben Tag «Page Impressions» verlieren, wäre vielleicht noch zu verschmerzen, aber vor allem verärgern wir unsere Leser. Dafür möchte ich mich in aller Form entschuldigen.
Wir bleiben am Ball, was es hier zu verbessern gäbe. Allerdings wird das kurzfristig schwierig. David Bukardt beim Basler Hoster Cyon (die ebenfalls Kunde von Init7 sind und deswegen noch deutlich schlimmer betroffen waren als wir – bei denen waren 7000 Kunden offline) denkt in einem Blogpost über «Multihoming» nach, also den Anschluss mehrerer Carrier. Das dürfte für Cyon eine gute Sache sein, aber für uns vermutlich im Moment noch deutlich zu teuer. Und vor allem schliesst man damit natürlich für recht viel Geld nur eine Fehlerquelle aus, und es gibt natürlich sehr viele. Letztes Mal waren es einmal eine ausgefallene Kühlung und kurz danach ein Hardware-Schaden an einem Switch, während es dieses Mal eine falsche Konfiguration war. Alle Kombinationen auszuschliessen ist eh praktisch unmöglich (oder nur mit sehr viel Geld, siehe die geringen Ausfallraten von Google & Co.).
Mir ist das ganze äusserst unangenehm; die Stunden, in denen man weiss, dass einen die Leser gerade nicht erreichen, sind sehr schlimm. Ich sehe das keineswegs als Kavaliersdelikt an, bei dem ich schulterzuckend daneben stehe und sage: «Ich konnte ja nichts dafür.» Wenn sich so etwas (wieder) häuft, werden wir zumindest die Konsequenzen insofern ziehen müssen, dass wir den Anbieter wechseln. Aber eben, eine Ausfallsicherheit gibt einem auch danach keiner.
Bis dahin — nochmal sorry und danke für Euer Verständnis!
Es gibt etliche Provider, die Colocation resp. Rackspace mit Multihomed Upstream anbieten, ohne dass man daran bankrott geht, weil die das auch für ihre normalen Hosting-Kunden haben. Da die ebenfalls im Letzigraben resp. in den beiden Telehouses sind, gibt’s nichtmal mehr Probleme mit dem RZ. Und in Glattbrugg sollte sowas auch zu haben sein (allerdings teurer, weil besseres RZ).
Von Kosten/Nutzenrechnung brauche ich dir ja wohl nix erzählen. Wenn unter dem Strich multihomed mehr kostet, als man beim Ausfall verliert, lässt man’s besser bleiben — beklagt sich dann aber auch nicht ;)
Danke für den Input. Ich kann ja mal fragen, was es kostet, eh ich hier mutmasse.
Und beklagen kann man sich immer, finde ich. :)
Woran liegt das denn genau? weil das ist ja schon ziemlich nervig, wenn das dann immer ein paar stunden alles ausfällt oder..