Herzlich Willkommen im
Network Operation Center
von den
Umkircher Network Dienste

http://www.und-online.de
Hier finden Sie aktuelle Informationen zu Störungen und Wartungsarbeiten auf unseren Servern.

 

DATUM / ZEIT



21.10.2005
07:48-09:15

SYSTEM:




diverse Systeme

STATUS:



KOMPLETTAUSFALL
Level(3) WELTWEIT

STATUSREPORT UPDATE 24.10.05 (14:45 Uhr)

Stellungnahme Level(3) zum weltweiten Netzwerkausfall

Sehr geehrte Kundin,
Sehr geehrter Kunde,

wie wir bereits mitteilten, kam es am Vormittag des 21.10.05, zwischen 07:48 und 09:15 zu weltweiten Netzwerkausfällen im Level(3) Backbone, von denen ALLE Rechenzentren betroffen waren.

Mittlerweile liegt ein offizielles Statement von Level(3) vor, in dem bestätigt wird, dass der Ausfall durch ein fehlgeschlagenes Software-Update eines zentralen Level(3) Routers verursacht wurde. 

Wir leiten folgende Informationen im Original an Sie weiter:

------------- OFFIZIELLES LEVEL(3) STATEMENT ---------

Subject: UPDATE3: Level(3) total network outage

Service Restore Date and Time: Between 10/21/2005 06:25 GMT to 10/21/2005 11:31 GMT depending on Location

Event Description:

A configuration update was applied to an edge router in Chicago as part of approved low risk maintenance activity. This validated and approved configuration change was applied to four other major markets with no impact. However; in this specific case the
configuration was corrupted during the deployment process on this specific edge router.

Upon load of the corrupted configuration, the device created an open-ended policy allowing this router’s routes to be redistributed to OSPF. The engineering team immediately reverted to the previous saved configuration to mitigate route propagation. The rollback was followed by deliberate router isolation and complete device reload to ensure no stale LSAs (Link State Announcements), existed on the device and completed by 12:08 MDT. 

After reloading the edge router, the initial cause of the event was effectively mitigated. However, due to the number of flooded LSAs, other devices in the Level 3 network had difficulty fully loading the OSPF tables and processing the volume of updates. This caused abnormal conditions within portions of the Level 3 network. Manual intervention on specific routers was required to allow a number of routers to return to a normal routing state.

Root Cause Analysis
Committed redistribution of loopback statement in an erroneous state.

Repair
On devices with large number of adjacent neighbors a selective process of disabling

interfaces on redundant paths or OSPF process restarts stabilized the affected portions to the network.

Future Preventive Actions
The Level 3 engineering team is currently analyzing the event in order to determine an appropriate action plan. Details of this specific plan will be available after the analysis is complete.

http://www.merit.edu/mail.archives/nanog/msg13166.html

------------- ENDE STELLUNGNAHME LEVEL(3) ---------

Diese Stellungnahme wird auch in deutschen Quellen kommentiert:

http://www.webhostlist.de/provider/nachrichten/64063.html 

Es ist anzumerken, dass derartige Updates ohne jegliche Komplikationen regelmäßig durchgeführt werden. Ein solcher Vorgang, bei dem weltweit zentrale Router zusammengebrochen sind, ist bislang einmalig und war nicht vorhersehbar.

Von der Störung waren alle Kunden, betroffen, die über Level(3)-Backbones auf die Rechenzentren bzw. Ihre Präsenzen zugreifen wollten, also z.B. Kunden, die über das Netz der Deutschen Telekom AG (DTAG) eingewählt waren bzw. über Provider, die über das DTAG Backbone geroutet werden (1&1, Alice-DSL usw.).

Für eine kleinere Anzahl von Kunden waren einige Level(3) Standorte, wie z.B. Düsseldorf oder Hamburg durchgehend erreichbar. So waren bei Nutzung von Arcor, Freenet, Strato-DSL usw. alle Standorte erreichbar, an denen die jeweiligen Carrier oder Backbone-Betreiber unmittelbare Anbindungen an die Level(3) Rechenzentren hatten und NICHT das Level(3) Backbone selbst nutzten.

Der Vorfall wurde von unabhängigen Medien noch am 21.10.05 wie folgt kommentiert:

http://www.heise.de/newsticker/meldung/65202

Wir bitten den Ausfall, der außerhalb unseres Einflussbereiches liegt, zu entschuldigen!

UND Costumer Support

 

Bei Erreichbarkeitsproblemen Ihrer Präsenz, machen Sie bitte zunächst folgenden TEST


Diese Seite wird gespiegelt bei: UND-ONLINE.NET und AOL sowie im NOC

Supportanfragen stellen Sie bitte über folgenden Formulare:

Kundensupport-Formular - Resellersupport-Formular

Ersatz- Email (Wenn wir normal nicht erreichbar sind:)  und-online@web.de

Support-Hotline : 0190-159058-116 (0,62 €/Min.)

Im
Newsletter schon eingetragen
??
Hier finden Sie aktuelle Informationen zu Störungen und Wartungsarbeiten auf unseren Servern.

.

UND-Notfall-Newsletter Abo [Info]
anmelden abmelden