Wetenschap
Krediet:CC0 Publiek Domein
Een nieuw soort algoritmen heeft Atari-videogames 10 keer sneller onder de knie dan state-of-the-art AI, met een baanbrekende benadering van probleemoplossing.
AI ontwerpen die planningsproblemen kan oplossen, vooral die waar beloningen niet meteen duidelijk zijn, is een van de belangrijkste onderzoeksuitdagingen om het veld vooruit te helpen.
Een beroemde studie uit 2015 toonde aan dat Google DeepMind AI leerde Atari-videogames zoals Video Pinball op menselijk niveau te spelen, maar notoir faalde om een pad te vinden naar de eerste sleutel in de videogame Montezuma's Revenge uit de jaren 80 vanwege de complexiteit van de game.
In de nieuwe methode die is ontwikkeld aan de RMIT University in Melbourne, Australië, computers die zijn ingesteld om autonoom te spelen Montezuma's Revenge leerden van fouten en identificeerde subdoelen 10 keer sneller dan Google DeepMind om het spel af te maken.
Universitair hoofddocent Fabio Zambetta van RMIT University onthult de nieuwe aanpak deze vrijdag op de 33e AAAI-conferentie over kunstmatige intelligentie in de Verenigde Staten.
De methode, ontwikkeld in samenwerking met RMIT's Professor John Thangarajah en Michael Dann, combineert "wortel-en-stok" versterkend leren met een intrinsieke motivatiebenadering die de AI beloont voor het nieuwsgierig zijn en het verkennen van zijn omgeving.
"Echt intelligente AI moet kunnen leren taken autonoom uit te voeren in ambigue omgevingen, ' zegt Zambetta.
"We hebben aangetoond dat de juiste soort algoritmen de resultaten kunnen verbeteren door een slimmere aanpak te gebruiken in plaats van puur brute forceren van een probleem end-to-end op zeer krachtige computers.
"Onze resultaten laten zien hoeveel dichter we bij autonome AI komen en zouden een belangrijke onderzoekslijn kunnen zijn als we op dit gebied substantiële vooruitgang willen blijven boeken."
Zambetta's methode beloont het systeem voor het autonoom verkennen van nuttige subdoelen zoals 'beklim die ladder' of 'spring over die put', die voor een computer misschien niet duidelijk zijn, in het kader van het voltooien van een grotere missie.
Andere state-of-the-art systemen hadden menselijke input nodig om deze subdoelen te identificeren of besloten willekeurig wat te doen.
"Niet alleen identificeerden onze algoritmen autonoom relevante taken ongeveer 10 keer sneller dan Google DeepMind tijdens het spelen van Montezuma's Revenge, ze vertoonden daarbij ook relatief menselijk gedrag, ' zegt Zambetta.
"Bijvoorbeeld, voordat je naar het tweede scherm van het spel kunt gaan, moet je subtaken identificeren, zoals ladders beklimmen, over een vijand springen en dan eindelijk een sleutel oppakken, ongeveer in die volgorde.
"Dit zou uiteindelijk willekeurig gebeuren na een enorme hoeveelheid tijd, maar om zo natuurlijk te gebeuren in onze tests toont een soort van intentie.
"Dit maakt van ons de eerste volledig autonome subdoelgerichte agent die echt kan concurreren met geavanceerde agenten in deze games."
Zambetta zei dat het systeem ook buiten videogames zou werken voor een breed scala aan taken, wanneer geleverd met ruwe visuele input.
"Het creëren van een algoritme dat videogames kan voltooien klinkt misschien triviaal, maar het feit dat we er een hebben ontworpen die kan omgaan met ambiguïteit en tegelijkertijd kan kiezen uit een willekeurig aantal mogelijke acties, is een cruciale stap vooruit.
"Het betekent dat, met tijd, deze technologie zal waardevol zijn om doelen in de echte wereld te bereiken, hetzij in zelfrijdende auto's of als nuttige robotassistenten met natuurlijke taalherkenning, " hij zegt.
Het autonoom afleiden van subdoelen om het leren in schaarse beloningsdomeinen te versnellen (bijgevoegd) zal worden gepresenteerd op de 33e AAAI-conferentie over kunstmatige intelligentie in Honolulu, Hawaï op 1 februari 2019.
Wetenschap © https://nl.scienceaq.com