science >> Wetenschap >  >> Elektronica

Het veranderen van de computerregels kan de impact van Big Data op internet verlichten

Krediet:CC0 Publiek Domein

In een tijd waarin we in ons dagelijks leven in een ongekende mate afhankelijk zijn van internet, een team van UM-onderzoekers onder leiding van Mosharaf Chowdhury en Harsha Madhyastha heeft een manier gevonden voor technologiebedrijven, banken en zorgstelsels om meer capaciteit uit onze bestaande infrastructuur te persen.

Een wijziging in het ontwerp van de big-data softwaretool Apache Spark zou 's werelds grootste gebruikers van rekenkracht in staat kunnen stellen om enorme taken tot 16 keer sneller uit te voeren en tegelijkertijd hun last op het internet te verlichten. Chowdhury is een assistent-professor en Madhyastha is een universitair hoofddocent, zowel informatica als techniek. de wijziging, genaamd Sol, is nu beschikbaar om te downloaden op GitHub.

Spark is een open-source elektronisch raamwerk dat dienst doet als taakmanager, het coördineren van uitgestrekte netwerken van individuele computers om samen te werken als een enkele machine aan grote computertaken. Een van de meest gebruikte tools in zijn soort ter wereld, het wordt gebruikt door elk groot technologiebedrijf en door banken, telecommunicatiebedrijven, regeringen en vele anderen.

Toen Spark tien jaar geleden werd gebouwd, het grootste deel van dit werk vond plaats in grote datacenters, waar enorme banken met machines op één locatie stonden. Maar vandaag, het wordt steeds vaker gebruikt om machines te verbinden die over de hele wereld zijn verspreid en verbonden zijn via internet.

Chowdhury hielp bij het bouwen van Spark tijdens zijn tijd als afgestudeerde student aan de University of California Berkeley. Hij legt uit dat het werk verdeelt over individuele machines met behulp van een onderdeel dat een uitvoeringsengine wordt genoemd. Het is voornamelijk ontworpen voor grote datacenters, waar groepen machines op hetzelfde lokale netwerk snel met elkaar konden communiceren. Maar het is minder efficiënt als machines duizenden kilometers van elkaar verwijderd zijn, verbonden door de relatief smalle pijp van het internet.

"De bestaande uitvoeringsengine van Spark neemt op het allerlaatste moment beslissingen over waar het werk naartoe moet - pas nadat de CPU aangeeft dat het klaar is voor meer werk, stuurt het een nieuwe taak, " zei Chowdhury. "Die aanpak maximaliseert flexibiliteit, en het is logisch als een taak in één datacenter is ondergebracht. Maar die communicatie duurt veel langer tussen machines die via internet met elkaar verbonden zijn. Door de last-minute-aanpak worden CPU's vaak onderbenut, wat betekent dat ze zitten te wachten op werk."

Dus Chowdhury en Madhyastha, werken met afgestudeerde student-onderzoeksassistenten Fan Lai en Jie You en niet-gegradueerde student Xiangfeng Zhu, schreef een nieuwe executie-engine genaamd Sol. Sol gaat proactiever te werk; in plaats van te wachten tot CPU's aangeven dat ze klaar zijn voor een nieuwe baan, het raadt welke de volgende in de rij zullen zijn en duwt actief nieuwe taken naar hen toe. Het instrueert machines ook om gegevens indien mogelijk lokaal te verwerken in plaats van deze voortdurend tussen machines te verplaatsen.

Dit betekent minder shuffelen van gegevens en opdrachten tussen machines, het verminderen van de belasting van het internet en het versnellen van de gegevensverwerking. Chowdhury's team heeft ontdekt dat het de berekening enorm versnelt, waardoor veelvoorkomende taken vier tot zestien keer sneller gaan.

Hoewel de momenteel beschikbare release een onderzoeksversie van de software is in plaats van een meer gepolijst product, Chowdhury zegt dat het vrijgeven ervan in zijn huidige vorm een ​​manier is om onderzoek te stimuleren in een tijd waarin snelheid essentieel is.

"Fan Lai stelt zichzelf al beschikbaar om diegenen te helpen die het willen proberen, ' zei hij. 'We doen er alles aan om snel te handelen.'

Het artikel is getiteld "Sol:Fast Distributed Computation Over Slow Networks".