Incident report 31-08-2016: Netværksudfald

Wow, det er træls at skulle skrive endnu en incident report indenfor så kort tid.

Onsdag nat samt Onsdag morgen, har vi haft udfald på vores netværksinfrastruktur der driver vores storage og VMware-platforme. Som konsekvens af dette har vi haft nedsat tilgængelighed til hele den virtuelle infrastruktur i vores datacenter.

Uddybning

Fejlen er lokaliseret til 4 centrale switch-enheder der driver en stor del af vores VMware platform.

Der er opstået et loop i en del af netværket, som normalvis ville være mitigeret af de indbyggede funktioner i switchene, men i stedet for at løse problemet har disse fået switchene, der forwarder trafikken til resten af netværket, til at gå i stå.

Den helt præcise fejlkilde undersøges stadig og samtidig er der kommunikation med switchleverandøren for at undersøge hvorfor enheden ikke agerede som planlagt.

Fra afbrydelserne i nat overvågede vores teknikere netværket tæt og fejlsøgte på problematikken. Ingen af problemerne har nogen sammenhæng med det der er sket om morgenen, så vidt logs og overvågning viser os, men vi udelukker naturligvis intet endnu.

00.45 – 00.50: Kort udfald på netværks infrastruktur

04.48 – 04.53: Kort udfald på netværks infrastruktur

07.34 – 08.01: Udfald på central netværkscore, der understøtter hele vores VMware infrastruktur. Fejlen betød at intern samt ekstern trafik mellem servere stoppede med at fungere.

08.30 – 08.40: Omlægning af trafikken på shared service betød afbrydelser til enkelte services i dette tidsrum.

09.00: Al drift normal

Her tænker du på “Incident report 31-08-2016: Netværksudfald”

Selvom det er trels, så er det stor ros til jer at i er så åbne med det. Mange andre udbydere forsøger at mørke den her slags ulykker, hvor i er åbne, gir en forklaring på hvad der er sket og hvad i gør ved det, så man som kunde ved at i ikke bare trækker på skulderne og siger “shit happens”.

Lukket for kommentarer.