science >> Wetenschap >  >> Elektronica

AI Aristo doet wetenschappelijke test, ontpopt meerkeuze superster

Krediet:aristo

Aristo is geslaagd voor een Amerikaanse wetenschappelijke test van de achtste klas. Als je te horen krijgt dat Aristo een serieuze jongen is die ervan houdt om alles over Faraday te lezen en drumt, dan zeg je wat, groot probleem.

Aristo, Hoewel, is een programma voor kunstmatige intelligentie en wetenschappers willen dat de wereld weet dat dit een groot probleem is, als "een maatstaf in AI-ontwikkeling, " zoals Melissa Locker het noemde Snel bedrijf .

We bedoelen, denk er gewoon over na. Cade Metz, in The New York Times , heeft erover nagedacht. "Vier jaar geleden, meer dan 700 computerwetenschappers deden mee aan een wedstrijd om kunstmatige intelligentie te bouwen die een wetenschappelijke test van de achtste klas zou kunnen doorstaan. Er was $80, 000 aan prijzengeld op de lijn. Ze zakten allemaal. Zelfs het meest geavanceerde systeem deed het niet beter dan 60% op de test. AI kan niet tippen aan de taal- en logische vaardigheden die leerlingen moeten hebben als ze naar de middelbare school gaan."

Dus wie zit er achter de test die in 2019 eindelijk indruk maakte? Geen slechte gok:het Allen Institute for Artificial Intelligence, die onder toezicht staat van Oren Etzioni. Hun systeem had de juiste antwoorden voor meer dan 90 procent van de vragen op de test, en daar houdt het niet op:het systeem kreeg meer dan 80 procent van de juiste antwoorden op meerkeuzevragen zonder diagrammen in een wetenschappelijk examen van de 12e klas.

We kijken nu naar "aanzienlijke vooruitgang bij het ontwikkelen van AI die talen kan begrijpen en de logica en besluitvorming van mensen kan nabootsen, ' zei Metz.

Voor het directe verhaal je zou "From 'F' to 'A' moeten lezen op de NY Regents Science Exams:An Overview of the Aristo Project, " die nu op arXiv staat. Dit project was een zesjarige missie om de wetenschappelijke examens van de lagere school en de middelbare school te beantwoorden.

De auteurs waren zich er terdege van bewust dat AI in het verleden geen indrukwekkende show had gemaakt door op het gewenste niveau te presteren. Met al het meesterschap van AI bij Go, Poker en gevaar, ze zeiden, "de rijke verscheidenheid aan gestandaardiseerde examens is een mijlpaal gebleven. Zelfs in 2016, het beste AI-systeem behaalde slechts 59,3% op een 8e-graads wetenschappelijke examenuitdaging."

De AI deed meerkeuzetests; het getal van 90 procent stond op het niet-diagram van het examen, meerkeuze vragen.

Dit is de manier waarop de AI2 zijn niet-menselijke genie beschrijft:"Aristo brengt machinelezen en NLP samen, tekstuele gevolgtrekking en gevolgtrekking, redeneren met onzekerheid, statistische technieken over grote corpora, en diagrambegrip om de eerste "goed geïnformeerde machine" over wetenschap te ontwikkelen."

Het team verwende Aristo voor een bijbedoeling, minder om zichzelf een schouderklopje te geven en meer over wat ze zouden kunnen leren van Aristo's gedrag op wetenschappelijke examens, "Omdat deze vragen veel van de belangrijkste vaardigheden testen die nodig zijn voor machine-intelligentie, " ze zeiden.

In hun krant ze legden meer uit over goede redenen om gebruik te maken van gestandaardiseerde wetenschappelijke examens.

"Gestandaardiseerde tests, in het bijzonder wetenschappelijke examens, zijn een zeldzaam voorbeeld van een uitdaging die aan deze eisen voldoet. Hoewel het geen volledige test van machine-intelligentie is, ze onderzoeken verschillende mogelijkheden die sterk geassocieerd zijn met intelligentie, inclusief taalbegrip, redenering, en gebruik van gezond verstand kennis. Een van de meest interessante en aansprekende aspecten van wetenschappelijke examens is hun graduele en veelzijdige karakter; verschillende vragen onderzoeken verschillende soorten kennis, sterk variëren in moeilijkheidsgraad. Om deze reden, ze zijn gebruikt als een boeiende en uitdagende taak voor het veld voor vele jaren."

Nieuwe opschepperij:Aristo, de auteurs zeiden, is het eerste systeem dat een score van meer dan 90 procent op het niet-diagram behaalt, multiple choice onderdeel van het New York Regents 8th Grade Science Exam.

Stephen Johnson in Grote Denken schreef over Aristo's onvermogen om diagrammen te maken. Hij zei:"Het systeem is alleen ontworpen om taal te interpreteren, wat betekent dat het meerkeuzevragen kan beantwoorden, maar niet die met een illustratie of grafiek."

Niettemin, de voorstelling toonde aan dat "moderne NLP-methoden kunnen resulteren in beheersing van deze taak."

Voor het instituut Aristo's prestatie wordt niet opgevat als een baars op de berg, maar eerder als een stap in een gewenste richting. Ze noemen het een mijlpaal "op de lange weg naar een machine met een diep begrip van de wetenschap en de oorspronkelijke droom van Paul Allen van een digitale Aristoteles."

© 2019 Wetenschap X Netwerk