Donderdagavond rond 18.43 uur ontvingen we een eerste melding dat diverse servers in ons netwerk onbereikbaar zouden zijn. Na een vaststelling van de omvang van de storing zijn we direct een grondig intern onderzoek gestart. Het werd echter al snel duidelijk dat de storing niet bij ons lag, maar hoger in het netwerk.
Samen met uplinkprovider IS hebben we alle mogelijke oorzaken en scenario's de revue laten passeren. Uiteindelijk werd ook Telecity erbij geroepen, en hebben we zelfs fysiek alle bekabeling laten doormeten, core switches laten rebooten, poorten laten omzetten, etc. Om 02.45 uur waren we echter nog net zover als om 19.00 uur: de oorzaak van de storing bleef gissen.
Feit is dat de ARP-tabel van de router niet werd getrained, waardoor de router het IP-verkeer niet naar het achterliggend netwerk kon doorsturen. Circa 35% van de servers was vanaf het begin echter wel gewoon bereikbaar gebleven. Via die servers konden we zelf zonder problemen ons gehele interne netwerk bereiken.
De oplossing was om 03.00 uur nog altijd niet bekend, maar de storing was inmiddels wel geïsoleerd tot het netwerksegment van Telecity wat zich tussen ons netwerk en dat van onze uplinkprovider bevond. Tot 06.00 uur in de morgen is Jack, de engineer on-call van Telecity, nog voor ons in de weer geweest om een oplossing te vinden voor de storing. Hij heeft zelfs nog een UTP kabel van 150 meter getrokken tussen de twee gebouwen van het datacenterum, maar dat bleek een brug te ver: het signaal over de lijn was te zwak. Alle lof voor je inzet, Jack!
Om 07.00 uur was bij IS het stokje inmiddels overgedragen aan Hans. Die stelde voor om de switch-setup van Telecity, waarin de door ons vermoedde oorzaak van de storing zat, te omzeilen door zelf een dedicated glasvezel aan te sluiten, direct tussen IS en ENTERNEXT.
Op aandringen van Arjan Steevels van IS werd dit door Telecity om 09.25 uur opgeleverd. Daarna kon Hans de glasvezel bekabeling afmonteren op onze hoofdswitch, en ... was het euvel onmiddelijk verholpen.
Zojuist hebben we vernomen dat er vannacht diverse klanten van Telecity hadden geklaagd over verbindingsproblemen over hetzelfde Telecity netwerk als waarover ons netwerkverkeer liep. Vooralsnog heeft Telecity dit nog niet formeel aan ons bevestigd.
Deze storing was ongewoon complex. Nooit eerder in ons 10-jarig bestaan werden we getroffen door een dergelijk raadselachtige storing. Een geluk bij een ongeluk was nog dat die storing vrijwel geheel in de avond en nacht heeft plaatsgevonden, en daardoor veel minder klanten heeft getroffen dan wanneer de storing overdag zou hebben plaatsgevonden.
Volgende week hebben alle betrokken partijen overleg over de verantwoordelijkheid voor deze storing, die geheel en al buiten ons bereik lag.
Medio juli zullen we een tweede datacentrum betrekken, welke met Telecity verbonden zal worden. Klanten kunnen er straks voor kiezen servers over twee locaties te verdelen, om op die manier te voorkomen dat downtime op één netwerk een direct gevolg heeft op de beschikbaarheid van de website en/of webservices.
Een klant wees ons nog op een artikel op Nu.nl, waarin 'wetenschappelijk' bewezen wordt geacht dat 19 juni de vrolijkste dag van het jaar is. We hebben dat zelf toch niet helemaal zo ervaren .. |