Wetenschap
Rice University computerwetenschapper Eugene Ng leidde de ontwikkeling van ShareBackup, een hardware- en softwareoplossing om datacenters te helpen herstellen van storingen zonder applicaties te vertragen. Krediet:Jeff Fitlow/Rice University
Iedereen die ooit een computernetwerk heeft vervloekt terwijl het langzamer ging lopen, zal de remedie waarderen die wordt aangeboden door wetenschappers van Rice University.
Rice-computerwetenschapper Eugene Ng en zijn team zeggen dat hun oplossing de gegevens op het snelle spoor zal houden wanneer er onvermijdelijk fouten optreden.
Ng introduceerde ShareBackup, een strategie waarmee gedeelde back-upswitches in datacenters het netwerkverkeer binnen een fractie van een seconde kunnen overnemen na een storing in de software- of hardwareswitch.
Hij zal deze week een peer-reviewed paper over het werk presenteren op de SIGCOMM 2018-conferentie in Boedapest, Hongarije. De krant is online en kan worden gedownload.
Ng zei dat het idee een veelvoorkomende ergernis onder dataprofessionals zou oplossen, wetenschappers en iedereen die op een netwerk vertrouwt om dag in dag uit resultaten te leveren.
"Een datanetwerk bestaat uit servers en netwerkswitches, " zei Ng, een professor in de informatica en elektrische en computer engineering. "Switches verplaatsen datapakketten naar waar ze heen moeten. Maar dingen mislukken, vooral in grootschalige datacenters met duizenden stukjes hardware."
De gebruikelijke reactie op een mislukte switch is om de gegevensstroom naar een andere lijn te shunten. "Over het algemeen, het netwerk heeft meerdere paden om servers te verbinden, dus net alsof er een afsluiting is op de snelweg, we zouden er omheen rijden. Dit is een conventionele, natuurlijke benadering die heel logisch is:je omleidt het falen om te komen waar je heen moet."
Maar soms is die andere weg verstopt en gaat alles langzamer. "Datacenters zijn niet het internet; ze gaan niet over mensen die op websites surfen, " Zei Ng. "Ze gaan over het ondersteunen van data-intensieve applicaties zoals datamining of machine learning. En veel van deze toepassingen hebben strikte prestatiedeadlines, dus het blindelings omleiden van verkeer kan verkeerd zijn in een datacenter."
In plaats van de dure optie om redundante switches in een netwerk te installeren, De strategie van het Ng-lab zou snelle switches en software op strategische locaties plaatsen die het verkeer van een defecte switch in een microseconde zouden kunnen oppikken. Wanneer dat probleem is opgelost, de software van het team maakt de back-upschakelaar beschikbaar voor het afhandelen van een andere storing.
De switch is snel genoeg:de hersteltijd voor storingen is 0,73 milliseconden, inclusief latentie van hardware en besturingssystemen - waarvan de meeste gebruikers nooit zouden weten dat een deel van het systeem defect was.
"De realiteit is dat het aantal apparaten dat op een bepaald moment uitvalt erg klein is, en de meeste van deze fouten kunnen worden verholpen door zaken als het opnieuw opstarten van het apparaat, "Zei Ng. "Soms wordt de software verknoeid en een simpele power-cycle zal het terugbrengen. Deze storingen kunnen ook niet lang duren.
"Dit zijn de kenmerken die we proberen uit te buiten, "zei hij. "Daarom, we kunnen wegkomen met het hebben van heel weinig apparaten die een back-up maken van een groot aantal apparaten."
Ng zei dat ShareBackup datacenters tijd en geld kan besparen, niet alleen door de volledige bandbreedte te behouden, maar ook door te helpen bij het analyseren van problemen, inclusief verkeerde configuraties die vaak leiden tot netwerkstoringen.
"Een deel van ons werk is om datacenters te helpen erachter te komen wat er mis is gegaan in het netwerk, "zei hij. "Zodra de back-up is geactiveerd, u kunt het defecte apparaat uit het productienetwerk halen en testen om te bepalen welk onderdeel het probleem heeft veroorzaakt.
"Nutsvoorzieningen, als we twee apparaten eruit halen en er niet achter kunnen komen welke er kapot is gegaan, beide zijn aan vervanging toe, " zei hij. "Het is zeer waarschijnlijk dat slechts één van de apparaten het probleem heeft. Onze software kan deze apparaten halfautomatisch diagnosticeren, en als een van de onderdelen goed is, het kan worden hersteld."
Wetenschap © https://nl.scienceaq.com