Wetenschap
De nieuwe AI-evaluatiemethode kijkt naar de invoergegevens zelf om te zien of de 'nauwkeurigheid' van de AI te vertrouwen is. Krediet:Universiteit van Kyoto / JB Brown
Naarmate de rol van AI in de samenleving steeds groter wordt, J B Brown van de Graduate School of Medicine rapporteert over een nieuwe evaluatiemethode voor het type AI dat ja/positief/waar of nee/negatief/onwaar antwoorden voorspelt.
Browns papier, gepubliceerd in Moleculaire Informatica , deconstrueert het gebruik van AI en analyseert de aard van de statistieken die worden gebruikt om het vermogen van een AI-programma te rapporteren. De nieuwe techniek genereert ook een waarschijnlijkheid van het prestatieniveau gegeven evaluatiegegevens, het beantwoorden van vragen als:Wat is de kans dat een nauwkeurigheid groter dan 90% wordt bereikt?
Bijna dagelijks verschijnen er berichten over nieuwe AI-toepassingen in het nieuws, ook in de samenleving en de wetenschap, financiën, geneesmiddelen, medicijn, en veiligheid.
"Hoewel gerapporteerde statistieken indrukwekkend lijken, onderzoeksteams en degenen die de resultaten evalueren, stuiten op twee problemen, " legt Brown uit. "Ten eerste, om te begrijpen of de AI zijn resultaten bij toeval heeft bereikt, en ten tweede, om de toepasbaarheid te interpreteren op basis van de gerapporteerde prestatiestatistieken."
Bijvoorbeeld, als een AI-programma is gebouwd om te voorspellen of iemand de loterij zal winnen, het kan altijd een verlies voorspellen. Het programma kan '99% nauwkeurigheid' bereiken, maar interpretatie is de sleutel om de nauwkeurigheid te bepalen van de conclusie dat het programma accuraat is.
Maar hierin ligt het probleem:in typische AI-ontwikkeling, de evaluatie is alleen te vertrouwen als er evenveel positieve als negatieve resultaten zijn. Als de gegevens een voorkeur hebben voor een van beide waarden, het huidige evaluatiesysteem zal het vermogen van het systeem overdrijven.
Dus om dit probleem aan te pakken, Brown ontwikkelde een nieuwe techniek die prestaties evalueert op basis van alleen de invoergegevens zelf.
"Het nieuwe van deze techniek is dat het niet afhankelijk is van één type AI-technologie, zoals diep leren, Brown beschrijft. "Het kan helpen bij het ontwikkelen van nieuwe evaluatiestatistieken door te kijken hoe een metriek samenwerkt met de balans in voorspelde gegevens. We kunnen dan zien of de resulterende statistieken vertekend kunnen zijn."
Brown hoopt dat deze analyse niet alleen het bewustzijn zal vergroten van hoe we in de toekomst over AI denken, maar ook dat het bijdraagt aan de ontwikkeling van robuustere AI-platforms.
Naast de nauwkeurigheidsmetriek, Brown testte zes andere statistieken in zowel theoretische als toegepaste scenario's, vinden dat geen enkele statistiek universeel superieur was. Hij zegt dat de sleutel tot het bouwen van bruikbare AI-platforms is om een multimetrische kijk op evaluatie te hebben.
"AI kan ons helpen bij het begrijpen van veel fenomenen in de wereld, maar om ons de juiste richting te geven, we moeten weten hoe we de juiste vragen moeten stellen. We moeten oppassen dat we ons niet te veel concentreren op een enkel getal als maatstaf voor de betrouwbaarheid van een AI."
Brown's programma is vrij beschikbaar voor het grote publiek, onderzoekers, en ontwikkelaars.
Wetenschap © https://nl.scienceaq.com