Skype Blogs

News, stories, and updates from Skype

Share

Bericht des CIO: Analyse des Skype-Ausfalls

Als Nachtrag unseres Ausfalls vergangene Woche haben wir auf dem englischen Blog eine sehr detaillierte Erklärung durch den Vorstands Informationstechnologie (Chief Information Officer oder CIO) veröffentlicht.

Das Wichtigste möchte ich für unsere deutschen Leser hier zusammenfassen: Der Ausfall nahm seinen Ausgang in der Überlastung mehrerer Server für die Offline-Nachrichtenzustellung. Deren Ausfall wurde durch einen Fehler in der Skype-Version 5.0.0.152 für Windows nicht korrekt behandelt, so dass 40% der Skype-Clients mit dieser Version abstürzten. Leider machten diese auch 25-30% der verfügbaren Supernodes aus. Auf Grund des Ausfalls dieser Supernodes (auch noch zeitlich kurz vor dem täglichen erwarteten Maximum an Online-Nutzern) stieg die Belastung der verbliebenen Supernodes an, so dass diese sich teilweise automatisch selbst ausklinkten und so eine Kettenreaktion weiter befeuerten.

Unsere Techniker förderten die Selbstheilung des P2P-Netzwerkes mit der Einrichtung mehrerer Tausend “Mega-Supernodes” in mehreren Schritten, die es bis zum frühen morgen des 23. Dezembers erlaubten, das Skype-Netzwerk zu stabilisieren.

Um einem derartigen GAU in Zukunft zu vermeiden, arbeiten wir stark daran, unsere Qualitätssicherung und Früherkennungsmethoden für derartige Anomalien weiter zu verbessern. Zudem werden wir gegenebenfalls die Möglichkeiten zur automatischen Aktualisierung weiter Ausbauen. Zuletzt wir unsere technische Infrastruktur beständig auf ihre Fähigkeit, mit unserem Wachstum mitzuhalten hin überprüft und dauern daran angepasst.

Für die wirkliche detaillierte chronologische Erläuterung der technischen Abläufe darf ich nochmals auf die detaillierte Schadensanalyse auf Englisch verweisen.

Wir wissen um die Wichtigkeit von Skype für alle unsere Nutzer und sind ihnen sehr dankbar für die andauernde Unterstützung während dieses Ausfalls, obwohl wir die Erwartung an die Zuverlässigkeit und die Kommunikation währenddessen nicht in Gänze erfüllen konnten. Wir haben aus diesem Zwischenfall gelernt und konnten so Verbesserungsmöglichkeiten in unserer Software identifizieren und in Angriff nehmen.

Share

Leave a Reply

Please log in using one of these methods to post your comment:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Connecting to %s