science >> Wetenschap >  >> Elektronica

Snellere analyse van big data met patroonminingtechnologieën van wereldklasse

Fig 1. Meerdere asynchrone GPU-streams van GMiner. Krediet:Daegu Gyeongbuk Instituut voor Wetenschap en Technologie (DGIST)

Een onderzoeksteam van het Daegu Gyeongbuk Institute of Science and Technology (DGIST) in Korea is erin geslaagd big data tot 1 000 keer sneller dan bestaande technologie door gebruik te maken van GPU-gebaseerde 'GMiner'-technologie. De bevinding van big data-patroonanalyse zal naar verwachting worden gebruikt in verschillende industrieën, waaronder de financiële en IT-sectoren.

Een internationaal team van onderzoekers, onder leiding van professor Min-Soo Kim van de afdeling Informatie- en Communicatietechnologie ontwikkelde 'GMiner'-technologie die big data-patronen met hoge snelheid kan analyseren. Gminer-technologie vertoont prestaties tot 1, 000 keer sneller dan 's werelds huidige beste patroonmijntechnologie.

Pattern mining-technologie identificeert alle belangrijke patronen die herhaaldelijk voorkomen in de big data van verschillende velden, zoals het kopen van goederen bij mega-marts, banktransacties, netwerk pakketten, en sociale netwerken. Deze technologie wordt veel gebruikt in verschillende industrieën voor doeleinden zoals het bepalen van de locatie van producten op mega-mart-schappen of het aanbevelen van creditcards die passen bij het gebruikspatroon van consumenten van verschillende leeftijden.

Het groeiende belang van patroonmijnbouw heeft de afgelopen 20 jaar geleid tot de ontwikkeling van duizenden technologieën voor patroonmijnbouw; echter, vanwege de toenemende lengte van big data-patronen, waardoor het aantal analytische patronen exponentieel toenam, bestaande mijnbouwtechnologieën werden gehinderd in hun analyse van gegevens van meer dan tien gigabyte (GB) omdat ze hun analyse niet konden voltooien vanwege onvoldoende computergeheugen of te veel tijd in beslag namen.

Traditionele patroonmijntechnologieën vonden eerst patronen van gemiddelde lengte en sloegen deze op in het geheugen. Bij het zoeken naar een patroon dat langer is dan middellang, ze gebruikten een methode om definitieve patronen te vinden in vergelijking met een patroon van gemiddelde lengte dat eerder was opgeslagen.

Fig 2. Gegevensstroom van GMiner met behulp van meerdere GPU's. Krediet:Daegu Gyeongbuk Instituut voor Wetenschap en Technologie (DGIST)

Echter, De door het onderzoeksteam ontwikkelde GMiner-technologie is erin geslaagd het probleem van bestaande technologieën fundamenteel op te lossen door anti-intuïtieve technieken voor te stellen die de tijdelijk berekende patronen van gemiddelde lengte combineren met behulp van de duizenden kernen op grafische verwerkingseenheden (GPU) om de uiteindelijke lengte van patronen.

GMiner-technologie loste het chronische probleem van onvoldoende geheugen van conventionele technologieën volledig op door geen exponentieel aantal patronen van gemiddelde lengte in het geheugen op te slaan. In aanvulling, het loste het probleem van lage snelheid op door gegevens van het hoofdgeheugen naar de GPU te streamen en tegelijkertijd patronen te zoeken met behulp van de hoge rekenprestaties van de GPU.

De GMiner-technologie toonde analyseprestaties die minimaal 10 keer tot maximaal 1 zijn. 000 keer sneller dan conventionele gedistribueerde en parallelle technologieën die gegevens analyseerden door gebruik te maken van tientallen algemene thuiscomputers met één GPU per computer; dus, het kan big data op grotere schaal analyseren dan bestaande technologieën. Het toonde ook uitstekende uitbreidingsprestaties die de prestaties verbeteren in verhouding tot het aantal GPU's.

Professor Kim zei:"We hebben fundamentele technologieën beveiligd die big data-patronen met hoge snelheid kunnen analyseren zonder problemen in het geheugen voor big data die in verschillende industrieën zijn verzameld. Door problemen op te lossen waarbij patroonminingtechnologieën niet correct werden toegepast op big data vanwege een gebrek aan geheugen lage snelheid, deze nieuwe technologie kan worden gebruikt om bedrijven te helpen efficiënte beslissingen te nemen door big data-patronen in verschillende sectoren te analyseren, waaronder de financiële, kleinhandel, HET, en biogerelateerde sectoren."

Dit onderzoeksresultaat is gepubliceerd in het nummer van 9 mei van Information Sciences, het meest gezaghebbende internationale tijdschrift op het gebied van informatiewetenschap.