science >> Wetenschap >  >> Elektronica

Is diversiteit de sleutel tot samenwerking? Nieuw AI-onderzoek suggereert dit

Nieuw onderzoek suggereert dat het trainen van een kunstmatige-intelligentiemodel met wiskundig "diverse" teamgenoten het vermogen om samen te werken met andere AI verbetert waarmee het nog nooit eerder heeft gewerkt. Krediet:Bryan Mastergeorge

Aangezien kunstmatige intelligentie steeds beter wordt in het uitvoeren van taken die eens uitsluitend in handen van mensen waren, zoals autorijden, zien velen teaming-intelligentie als een volgende grens. In deze toekomst zijn mens en AI echte partners in banen met een hoge inzet, zoals het uitvoeren van complexe operaties of verdediging tegen raketten. Maar voordat teaming intelligence van de grond kan komen, moeten onderzoekers een probleem overwinnen dat de samenwerking aantast:mensen houden vaak niet van of vertrouwen hun AI-partners.

Nu wijst nieuw onderzoek erop dat diversiteit een belangrijke parameter is om van AI een betere teamspeler te maken.

Onderzoekers van het MIT Lincoln Laboratory hebben ontdekt dat het trainen van een AI-model met wiskundig "diverse" teamgenoten het vermogen verbetert om samen te werken met andere AI waarmee het nog nooit eerder heeft gewerkt, in het kaartspel Hanabi. Bovendien publiceerden zowel Facebook als Google's DeepMind gelijktijdig onafhankelijk werk dat ook diversiteit in training bracht om de resultaten in samenwerkingsgames tussen mens en AI te verbeteren.

Al met al kunnen de resultaten onderzoekers op een veelbelovend pad wijzen om AI te maken die zowel goed kan presteren als door menselijke teamgenoten als goede medewerkers kan worden gezien.

"Het feit dat we allemaal op hetzelfde idee zijn uitgekomen - dat als je wilt samenwerken, je in een diverse omgeving moet trainen - is opwindend en ik geloof dat het echt de weg vrijmaakt voor het toekomstige werk in coöperatieve AI", zegt Ross Allen, een onderzoeker in de Artificial Intelligence Technology Group van Lincoln Laboratory en co-auteur van een paper over dit werk, dat onlangs werd gepresenteerd op de International Conference on Autonomous Agents and Multi-Agent Systems.

Aanpassen aan ander gedrag

Om coöperatieve AI te ontwikkelen, gebruiken veel onderzoekers Hanabi als proeftuin. Hanabi daagt spelers uit om samen te werken om kaarten op volgorde te stapelen, maar spelers kunnen alleen de kaarten van hun teamgenoten zien en kunnen elkaar slechts schaarse aanwijzingen geven over welke kaarten ze hebben.

In een eerder experiment testten onderzoekers van Lincoln Laboratory een van 's werelds best presterende Hanabi AI-modellen met mensen. Ze waren verrast toen ze ontdekten dat mensen het niet leuk vonden om met dit AI-model te spelen, en noemden het een verwarrende en onvoorspelbare teamgenoot. "De conclusie was dat we iets missen over de menselijke voorkeur, en we zijn nog niet goed in het maken van modellen die in de echte wereld zouden kunnen werken", zegt Allen.

Het team vroeg zich af of coöperatieve AI anders getraind moet worden. Het type AI dat wordt gebruikt, versterkingsleren genoemd, leert traditioneel hoe te slagen in complexe taken door te ontdekken welke acties de hoogste beloning opleveren. Het wordt vaak getraind en geëvalueerd aan de hand van modellen die op hem lijken. Dit proces heeft ongeëvenaarde AI-spelers gecreëerd in competitieve games zoals Go en StarCraft.

Maar om AI een succesvolle medewerker te laten zijn, moet het misschien niet alleen zorgen voor het maximaliseren van de beloning bij het samenwerken met andere AI-agenten, maar ook voor iets meer intrinsieks:begrip en aanpassing aan de sterke punten en voorkeuren van anderen. Met andere woorden, het moet leren van en zich aanpassen aan diversiteit.

Hoe train je zo'n diversiteitsgerichte AI? De onderzoekers kwamen met 'Any-Play'. Any-Play vergroot het proces van het trainen van een AI Hanabi-agent door een ander doel toe te voegen, naast het maximaliseren van de spelscore:de AI moet de speelstijl van zijn trainingspartner correct identificeren.

Deze speelstijl is binnen de trainingspartner gecodeerd als een latente of verborgen variabele die de agent moet inschatten. Dit doet hij door verschillen in het gedrag van zijn partner waar te nemen. Dit doel vereist ook dat zijn partner onderscheidend, herkenbaar gedrag leert om deze verschillen over te brengen aan de ontvangende AI-agent.

Hoewel deze methode om diversiteit teweeg te brengen niet nieuw is op het gebied van AI, breidde het team het concept uit naar samenwerkingsgames door gebruik te maken van dit verschillende gedrag als verschillende speelstijlen van het spel.

"De AI-agent moet het gedrag van zijn partners observeren om de geheime input te identificeren die ze hebben ontvangen en moet deze verschillende manieren van spelen accommoderen om goed te presteren in het spel. Het idee is dat dit zou resulteren in een AI-agent die goed is spelen met verschillende speelstijlen", zegt eerste auteur en Carnegie Mellon University Ph.D. kandidaat Keane Lucas, die de experimenten leidde als voormalig stagiair in het laboratorium.

Spelen met anderen die anders zijn dan hijzelf

Het team heeft dat eerdere Hanabi-model (het model dat ze in hun eerdere experiment met mensen hadden getest) aangevuld met het Any-Play-trainingsproces. Om te evalueren of de aanpak de samenwerking verbeterde, voegden de onderzoekers het model samen met 'vreemden' - meer dan 100 andere Hanabi-modellen die het nog nooit eerder was tegengekomen en die door afzonderlijke algoritmen waren getraind - in miljoenen wedstrijden voor twee spelers.

De Any-Play-combinaties presteerden beter dan alle andere teams, terwijl die teams ook bestonden uit partners die algoritmisch niet op elkaar leken. Het scoorde ook beter wanneer het samenwerkte met de originele versie van zichzelf die niet was getraind met Any-Play.

De onderzoekers beschouwen dit type evaluatie, inter-algoritme cross-play genaamd, als de beste voorspeller van hoe coöperatieve AI in de echte wereld met mensen zou presteren. Cross-play tussen algoritmen staat in contrast met meer algemeen gebruikte evaluaties die een model testen tegen kopieën van zichzelf of tegen modellen die door hetzelfde algoritme zijn getraind.

"We beweren dat die andere statistieken misleidend kunnen zijn en de schijnbare prestaties van sommige algoritmen kunstmatig kunnen verbeteren. In plaats daarvan willen we weten of je zomaar uit het niets een partner binnenhaalt, zonder voorkennis van hoe ze zullen spelen , hoe goed kun je samenwerken?' We denken dat dit type evaluatie het meest realistisch is bij het evalueren van coöperatieve AI met andere AI, wanneer je niet met mensen kunt testen", zegt Allen.

Inderdaad, dit werk heeft Any-Play niet met mensen getest. Onderzoek gepubliceerd door DeepMind, gelijktijdig met het werk van het laboratorium, gebruikte echter een vergelijkbare benadering van diversiteitstraining om een ​​AI-agent te ontwikkelen om het samenwerkingsspel Overcooked met mensen te spelen. "De AI-agent en mensen toonden een opmerkelijk goede samenwerking, en dit resultaat doet ons geloven dat onze aanpak, die we nog algemener vinden, ook goed zou werken met mensen", zegt Allen. Facebook gebruikte op dezelfde manier diversiteit in training om de samenwerking tussen Hanabi AI-agenten te verbeteren, maar gebruikte een ingewikkelder algoritme waarvoor aanpassingen van de Hanabi-spelregels nodig waren om handelbaar te zijn.

Of cross-play-scores tussen algoritmen eigenlijk goede indicatoren zijn voor menselijke voorkeur, is nog steeds een hypothese. Om het menselijk perspectief weer in het proces te brengen, willen de onderzoekers proberen de gevoelens van een persoon over een AI, zoals wantrouwen of verwarring, te correleren aan specifieke doelen die worden gebruikt om de AI te trainen. Het blootleggen van deze verbindingen kan de vooruitgang in het veld helpen versnellen.

"De uitdaging bij het ontwikkelen van AI om beter met mensen samen te werken, is dat we mensen niet op de hoogte kunnen houden tijdens de training om de AI te vertellen wat ze wel en niet leuk vinden. Het zou miljoenen uren en persoonlijkheden kosten. Maar als we een soort van kwantificeerbare proxy voor menselijke voorkeur - en misschien is diversiteit in training zo'n proxy - dan hebben we misschien een manier gevonden om deze uitdaging aan te gaan", zegt Allen.