Drift
30 oktober 2018

När det som inte får hända händer, en djupdykning i driftstörningen 25 okt 2018

Helt plötsligt händer det som inte får hända, hemsidan går ner. Febrilt kollar man att Internet fungerar som det ska, att fakturan är betald och att det inte bara är datorn man sitter vid som upplever problemen. Under torsdagen hände antagligen detta för flera av våra kunder som därefter började leta efter driftinformation på vår hemsida, som vi ironiskt behövde använda flitigt bara dagen efter att vi lanserat vår nya driftsida.

Torsdagens händelser är något som tillhör ovanligheterna, det här är ju lite fel tillfälle att skryta om det, men upptid och snabbhet är en stor anledning att välja oss, vilket våra kunder gärna berättar om i deras recensioner. En del i vårt arbete att hålla våra kunder sidor uppe är redundant nätverkslagring, vilket i princip är ett måste för att vi ska kunna leverera vår höga upptid. Detta ger oss möjlighet att flytta våra webbhotellservrar mellan flera olika fysiska servrar vid eventuella problem, en stor fördel jämfört med många andra leverantörer. Denna gången fick vi dock uppleva baksidan av nätverkslagringen, när ett problem uppstår är påverkan mycket större än ett scenario där varje fysiska maskin har egna diskar och problem isoleras.

Så vad hände egentligen?

Under torsdagen genomfördes uppgraderingar av de fysiska maskiner som huserar våra delade webbhotellservrar där vi installerade nya fiberkort för att snart slå över till högre nätverkshastigheter och få lägre latens mot nätverkslagringen. Vid start av maskinerna efter den fysiska uppgraderingen etablerar och tappar servern anslutning mot de nätverksswitchar den är ansluten mot flera gånger beroende på i vilken fas av uppstarten den är. När detta hände skapades problem i en switch kopplad till en av noderna i nätverkslagringen ansvarig för MySQL på våra webbhotellservrar och orsakade det första problemet runt 11:30.

När vi såg problemet visade felsökningen att en av noderna hade periodiska problem med paketförlust mot övriga noder i lagringen. En djupare undersökning av noden visade att det var problem med ett nätverkskort. Eftersom en manuell omkoppling av vilket nätverkskort som skötte anslutningen löste problemet gjorde vi antagandet att problemet var isolerat till just det specifika nätverkskortet, på den specifika noden samt att problemet var löst och enbart krävde ett byte av nätverkskort nattetid utan någon mer nertid.

Installationen av fiberkort i resterande servrar fortsatte och en av de fysiska servrar som huserar webbhotellservrarna skulle startas om runt 16:30, på grund av ett mänskligt fel startades fel fysisk server om och de webhotellservrar som kördes på servern stängdes i sin tur också av. De flesta av webbhotellservrarna, två undantagna, kom snabbt upp igen men vid omstarten uppstod samma fel i switchen som tidigare under dagen drabbat oss, dock blev påverkan denna gången på två av våra lagringskluster. Det gjorde att servrarna som var igång fick periodiska fel med läsningar och orsakade nertid på våra kunders sidor och de två servrar som inte startat som de skulle kunde inte läsa de filer som behövdes för att starta ordentligt.

Då det tydde på liknande problem vi haft tidigare under dagen insåg vi att sannolikheten att flera nätverkskort skulle uppleva liknande problem så tätt inpå varandra var väldigt liten och att problemet antagligen var djupare än vad vi först trott. Det ena av lagringsklustren vi hade problem med kunde lösas på liknande sätt som tidigare under dagen för att det snabbt skulle komma igång igen medans det andra krävde att vi hittade grundproblemet. Vår felsökning ledde oss till våra switchar och efter ändringar i konfigurationen för nätverksportarna för lagringen lagades kopplingarna mellan lagringsnoderna och efter att den data som ännu inte skrivits som den skulle började läget stabilisera sig.

Driftstörningen medför ändringar i hur vi jobbar med felsökning samt innebär att vi kommer att gå igenom konfiguration för både nätverk och lagringsklustren för att göra vårt bästa för att förhindra att något liknande ska hända igen. Vi var vid dagens slut väldigt glada att vi har separerade lagringskluster för att isolera problemen, vilket medfört att driftstörningen inte påverkat våra kunder med managed server eller VPS:er som båda har egna lagringskluster. Vi ser även fram emot framtiden som tar oss ännu närmare mot ett enbart fibernätverk med modernare nätverkshårdvara, snabbare hastigheter och lägre latenser, allt för en bättre upplevelse och snabbare hemsidor.

Så vad hände egentligen?

Skapa ditt WebbPress-konto

Beställ WordPress-optimering