Wetenschap
Krediet:CC0 Publiek Domein
Technologie gaat met grote sprongen vooruit, en daarmee de informatie waarmee de samenleving dagelijks opereert. Hoe dan ook, de hoeveelheid gegevens moet worden georganiseerd, geanalyseerd en gecorreleerd om bepaalde patronen te voorspellen. Dit is een van de belangrijkste functies van wat bekend staat als Big Data.
Onderzoekers in de KIDS-onderzoeksgroep van de afdeling Computerwetenschappen en Numerieke Analyse van de Universiteit van Cordoba waren in staat om de modellen te verbeteren die verschillende variabelen tegelijkertijd voorspellen op basis van dezelfde set invoervariabelen, waardoor de omvang van de gegevens die nodig zijn voor een nauwkeurige prognose wordt verkleind. Een voorbeeld hiervan is een methode die verschillende parameters met betrekking tot bodemkwaliteit voorspelt op basis van een reeks variabelen zoals geplante gewassen, grondbewerking en het gebruik van bestrijdingsmiddelen.
"Als je te maken hebt met een grote hoeveelheid data, er zijn twee oplossingen. U verhoogt ofwel de computerprestaties, wat erg duur is, of u vermindert de hoeveelheid informatie die nodig is om het proces goed te laten verlopen, " zegt onderzoeker Sebastian Ventura, een van de auteurs van het onderzoeksartikel.
Bij het bouwen van een voorspellend model, betrouwbare resultaten zijn afhankelijk van twee zaken:het aantal variabelen dat een rol speelt en het aantal voorbeelden dat in het systeem is ingevoerd. Met het idee dat minder meer is, de studie heeft het aantal voorbeelden kunnen verminderen door overbodige of "luidruchtige, " en die dus geen bruikbare informatie opleveren voor het creëren van een beter voorspellend model.
Zoals Oscar Reyes, de hoofdauteur van het onderzoek, wijst erop dat "we een techniek hebben ontwikkeld die u kan vertellen welke reeks voorbeelden u nodig heeft, zodat de voorspelling niet alleen betrouwbaar is, maar zelfs beter zou kunnen zijn." In sommige databanken is van de 18 die werden geanalyseerd, ze waren in staat om de hoeveelheid informatie met 80 procent te verminderen zonder de voorspellende prestaties te beïnvloeden, wat betekent dat minder dan de helft van de oorspronkelijke gegevens werd gebruikt. Alles van dit, zegt Reyes, "betekent energie en geld besparen bij het bouwen van een model, omdat er minder rekenkracht nodig is." het betekent ook tijd besparen, wat interessant is voor applicaties die in realtime werken, omdat "het geen zin heeft om een model een half uur te laten draaien als je elke vijf minuten een voorspelling nodig hebt."
Systemen die meerdere gerelateerde variabelen tegelijk voorspellen, bekend als multi-output regressiemodellen, worden steeds belangrijker vanwege het brede scala aan toepassingen die kunnen worden geanalyseerd onder dit paradigma van automatisch leren, zoals die met betrekking tot de gezondheidszorg, waterkwaliteit, koelsystemen voor gebouwen en milieustudies.
Wetenschap © https://nl.scienceaq.com