Incident report 29-07-2016: Strømafbrydelse i datacenter

Fredag aften kl. 20.50, skete det der aldrig må ske i et datacenter: Vi mistede alt strøm.

Strømafbrydelsen betød, at alle UnoEuro servere og services, var utilgængelige fra kl. 20.50 og frem. De første services kom online igen kl. 23.34, og al drift var normaliseret igen kl. 01.03.

Fejlen er blevet lokaliseret til en defekt enhed i nødstrømsgeneratoren i det panel, der bestemmer, om vores datacenter skal køre på strøm fra el-nettet eller på strøm fra generatoren selv. Normalt ved strømafbrydelser sørger denne enhed for datacentrets uafbrudte strømforsyning, ved at aktivere henholdsvis generator eller ekstern strømforsyning.

Vores UPS-anlæg nåede, inden det løb tør for batteristrøm, at udvide fejlsøgningsvinduet med 35 minutter. Normalt ville nødstrømsgeneratoren overtage driften fra UPS-anlægget i løbet af ganske kort tid, men grundet den defekte enhed skete dette desværre ikke, og datacenteret stod derfor uden strøm.

Vores teknikere var til stede i datacentret og i kontakt med leverandøren, inden UPS-anlægget løb tør for strøm. Da fejlen skete i et stærkstrømsområde, var personsikkerhedsrisikoen imidlertid for stor til, at ikke-certificerede fagpersoner måtte arbejde på anlægget, samtidig var der risiko for at fejlhåndtering af situationen kunne lede til en eksplosion i datacenteret (som de professionelle sagde), hvilket selvfølgelig ville være katastrofal.

Den præcise fejl i nødstrømsgeneratoren blev lokaliseret kl. 22.10. Efter anskaffelse af en reservedel kunne elektrikerne kl. 23.10 genetablere strømmen i datacentret. Vores teknikere gik herefter i gang med at starte alle systemerne igen.

På trods af denne yderst kritiske hændelse var al drift genetableret kl. 01:03.

Under hele forløbet har vi holdt kunder opdateret på primært Twitter og Facebook så godt vi kunne.

Vi er selvfølgelig ekstremt kede af at dette kunne ske. At stå i et datacenter uden strøm er praktisk talt vores værste mareridt. Det er en situation vi nogle gange sidder og snakker om ved frokostbordet som en “Det sker aldrig, men hvad nu hvis”-situation. Nu skete det så, og på trods af virkelig træls nedetid, er vi ekstremt stolte over at vores systemer og infrastruktur praktisk talt ‘kom op af sig selv’ da der kom strøm på igen. Det skyldes alene at vi har investeret enorme mængder penge og tid i vores systemer.

Vi håber vores kunder vil tage dette med i deres vurdering. Vi beklager.

Hændelsesforløb

20.14: UPS-anlægget aktiveres. Tilkaldevagt alarmeres.

20.25: Vores teknikere er fremme ved datacentret og inspicerer fejlen. Efter kort samråd med el-vagten tilkaldes to certificerede elektrikere.

20.50: UPS-anlægget løber tør for strøm. Datacentret er nede.

21.15: Første elektriker er fremme ved datacentret og begynder fejlsøgning. Inden for 15 minutter ankommer ekstra elektrikere, så der er 4 mand på opgaven.

21.15-22.10: Fejlsøgning af el står på.

22.10: Fejlen er lokaliseret, og elektrikere går i gang med at fremskaffe den nødvendige reservedel til dieselgeneratoren. ETA er 20 minutter, før den kan leveres onsite.

22.39: Elektrikerne går i gang med udbedre fejlen, lave kontrol-målinger og sikre korrekt procedure for at sikre færrest mulige risici ved opstart af anlæggene.

23.10: Dieselgeneratoren kobles ind, UPS-anlægget startes op igen og der er igen strøm i datacentret.

23.10: Vores teknikere starter infrastruktursystemerne i korrekt rækkefølge for at have så få problemer som muligt efterfølgende (SAN, netværk, hosts, mv.).

01.03: Al drift er genetableret

Spørgsmål

Er jeres setup ikke redundant?

Jo, til et vist punkt. Vi har redundante internetforbindelser, redundante UPS, redundante strømforsygninger i serverne, og vi har offsite backup af vores data. Det eneste vi ikke har redundant er vores nødstrømsgenerator. Det er svært at sige om det havde gjort en forskel i den her situation, grundet omstændighederne, men det er selvfølgelig noget vi vil undersøge nærmere.

Vores navneservere er geografisk adskilt, så DNS drift har ikke været påvirket – men de web- & mailservere som DNS har peget på, har selvfølgelig været utilgængelige.

Tester man ikke sådan en nødstrømsgenerator?

Jo, det gør vi jævnligt, men den enhed som er gået i stykker har formentlig virket perfekt lige indtil den ikke gjorde, hvilket så har forsaget problemet.

Hvad med datatab?

Ingen data er gået tabt og ingen mails er ikke blevet leveret. Mails er dog selvfølgelig blevet leveret med forsinkelse.

12 meninger om “Incident report 29-07-2016: Strømafbrydelse i datacenter”

  1. Med tanke på at dette var en “worst case scenario”, syntes jeg det er flot klaret at få det hele op at køre igen efter blot 4 timer og 13 min!

    Selvfølgelig er det da irriterende og ærgeligt at ens hjemmesider og mails er nede, og nok især for de der har en online business kørende. Men herre gud, 4 timer, vi overlever nok.
    Vi er så forvænt med at al vores teknik bare kører, at vi ikke tænker på hvilket arbejde der ligger netop i at få det til at fungere 24/7.

    Så her fra skal der ikke lyde beklagelser, jeg synes I leverer et uovertruffent produkt til en absolut overkommelig pris.

    Med venlig hilsen
    Jan Larsen

  2. Flot håndteret, at det ikke var nede længere tid. Og fin kommunikation på Twitter.

    Men en ting forstår jeg ikke helt. Hvorfor skulle nødstrømgeneratoren overhovedet aktiveres? Var der afbrydelse i strømmen fra det almindelig elnet? Eller var der tale om, at funktionsfejlen i panelet gjorde det umuligt at få strøm fra såvel elnettet som generatoren?

    1. Funktionsfejl. Generatoren troede at elnettet var forsvundet, så den slog elnettet fra for at kunne koble sig selv på, men det gjorde den så bare aldrig.

    2. Den defekte del har bl.a. til opgave at detektere om nettet er helt, delvist eller ikke til stede. Hvor den detekterer at nettet kun er delvist eller ikke tilstede, kobler den nettet helt fra, starter generatoren (datacenteret fortsætter på UPS) og lader generatoren overtage forsyningen. I dette tilfælde koblede den blot nettet fra og startede generatoren – men lagde ikke generatoren ind som forsyning.

  3. Et par spørgsmål:

    1) Det kan fremstå i udredningen som om det er jeres datacenter, men I har vel lejet jer ind i et datacenter, ikke? Hvad hedder datacenteret/firmaet bag datacenteret?

    2) Det fremgår, at jeres DNS servere er på en anden hostinglokation. Det betyder at de af jeres kunder, som både bruger jeres webhotel og jeres DNS services vel har større risiko for nedetid, fordi der er større risiko for nedbrud i en af to hostinglokationer end i én hostinglokation? Var det i så fald ikke smartere at få jeres DNS servere flyttet til samme hostinglokation?

    1. 1) Nej, det er vores serverrum

      2) Nej, du skal kun bruge én navneserver der virker, vi har 4.

  4. Altid noget, at i holder os opdateret på Twitter og Fb under forløbet.
    Fejl kan ske, og det er kun anden gang i de 9 år, jeg har benyttet jer, så det er sku godkendt :)

  5. Fornem kommunikation mens det stod på og fin rapport bagefter. Åbenheden er eksemplarisk.

    Bekymringen er størst når man ikke ved hvad der sker. Når man som i dette tilfælde bliver løbende og åbent informeret bliver man beroliget.

    Måden I håndterede hændelsen har kun gjort mig endnu mere tilfreds med og tryg ved UnoEuro.

  6. Ja – tak for professionel håndtering af en sådan kedelig situation. Det værste man kan komme ud for når ens website er nede, er når man er uvis om webhotellet er klar over problemet om der arbejdes på at løse problemet. Det var man ikke her!

  7. Servicen fra Unoeuro er i top! Det er virkelig positivt at I under en stressede situation stadig fokusere på at holde Jeres kunder opdateret over sociale medier!

    Så når det utænkelige sker, formår I stadig at holde hovedet koldt :)

Lukket for kommentarer.