science >> Wetenschap >  >> Elektronica

Met weinig training, algoritmen voor machinaal leren kunnen verborgen wetenschappelijke kennis blootleggen

Onderzoekers van Berkeley Lab ontdekten dat tekstmining van materiaalwetenschappelijke abstracts nieuwe thermo-elektrische materialen zou kunnen opleveren. Krediet:Berkeley Lab

Zeker wel, computers kunnen worden gebruikt om schaken op grootmeesterniveau te spelen (chess_computer), maar kunnen ze wetenschappelijke ontdekkingen doen? Onderzoekers van het Lawrence Berkeley National Laboratory (Berkeley Lab) van het Amerikaanse Department of Energy hebben aangetoond dat een algoritme zonder opleiding in materiaalkunde de tekst van miljoenen artikelen kan scannen en nieuwe wetenschappelijke kennis kan ontdekken.

Een team onder leiding van Anubhav Jain, een wetenschapper in de Energy Storage &Distributed Resources Division van Berkeley Lab, verzamelde 3,3 miljoen samenvattingen van gepubliceerde materiaalwetenschappelijke papers en voerde ze in een algoritme genaamd Word2vec. Door relaties tussen woorden te analyseren, kon het algoritme ontdekkingen van nieuwe thermo-elektrische materialen jaren van tevoren voorspellen en tot nu toe onbekende materialen suggereren als kandidaten voor thermo-elektrische materialen.

"Zonder iets te vertellen over materiaalkunde, het leerde begrippen als het periodiek systeem en de kristalstructuur van metalen, "zei Jain. "Dat duidde op het potentieel van de techniek. Maar waarschijnlijk is het meest interessante dat we hebben ontdekt, je kunt dit algoritme gebruiken om hiaten in materiaalonderzoek aan te pakken, dingen die mensen zouden moeten bestuderen, maar die ze tot nu toe niet hebben bestudeerd."

De bevindingen werden op 3 juli gepubliceerd in het tijdschrift Natuur . De hoofdauteur van de studie, "Onbewaakte woordinbeddingen leggen latente kennis vast uit materiaalwetenschappelijke literatuur, " is Vahe Tshitoyan, een postdoctoraal onderzoeker van Berkeley Lab die nu bij Google werkt. Samen met Jaïn, Berkeley Lab-wetenschappers Kristin Persson en Gerbrand Ceder hielpen bij het leiden van het onderzoek.

"De paper stelt vast dat text mining van wetenschappelijke literatuur verborgen kennis kan blootleggen, en dat pure op tekst gebaseerde extractie fundamentele wetenschappelijke kennis kan opleveren, " zei Ceder, die ook een aanstelling heeft bij de afdeling Materials Science and Engineering van UC Berkeley.

Tshitoyan zei dat het project werd gemotiveerd door de moeilijkheid om de overweldigende hoeveelheid gepubliceerde onderzoeken te begrijpen. "In elk onderzoeksgebied is er 100 jaar onderzoeksliteratuur uit het verleden, en elke week komen er nog tientallen onderzoeken uit, " zei hij. "Een onderzoeker heeft daar maar een fractie van. Wij dachten, kan machine learning iets doen om al deze collectieve kennis op een ongecontroleerde manier te gebruiken - zonder begeleiding van menselijke onderzoekers?"

'Koning - koningin + man =?'

Het team verzamelde de 3,3 miljoen samenvattingen van artikelen die in meer dan 1 000 tijdschriften tussen 1922 en 2018. Word2vec nam elk van de ongeveer 500, 000 verschillende woorden in die samenvattingen en veranderde elk in een 200-dimensionale vector, of een array van 200 nummers.

"Wat belangrijk is, is niet elk nummer, maar door de getallen te gebruiken om te zien hoe woorden aan elkaar gerelateerd zijn, " zei Jaïn, die een groep leidt die werkt aan het ontdekken en ontwerpen van nieuwe materialen voor energietoepassingen met behulp van een mix van theorie, berekening, en datamining. "Je kunt bijvoorbeeld vectoren aftrekken met behulp van standaard vectorwiskunde. Andere onderzoekers hebben aangetoond dat als je het algoritme traint op niet-wetenschappelijke tekstbronnen en de vector neemt die het resultaat is van 'koning minus koningin, ' krijg je hetzelfde resultaat als 'man minus vrouw'. Het berekent de relatie zonder dat je het iets vertelt."

evenzo, wanneer getraind in materiaalwetenschappelijke tekst, het algoritme was in staat om de betekenis van wetenschappelijke termen en concepten zoals de kristalstructuur van metalen te leren, simpelweg op basis van de posities van de woorden in de samenvattingen en hun gelijktijdige aanwezigheid met andere woorden. Bijvoorbeeld, net zoals het de vergelijking "koning-koningin + man, " het zou kunnen uitvinden dat voor de vergelijking "ferromagnetisch - NiFe + IrMn" het antwoord "antiferromagnetisch" zou zijn.

Het periodiek systeem van Mendelejev staat aan de rechterkant. Word2vec's weergave van de elementen, geprojecteerd op twee dimensies, staat aan de linkerkant. Krediet:Berkeley Lab

Word2vec was zelfs in staat om de relaties tussen elementen in het periodiek systeem te leren toen de vector voor elk chemisch element op twee dimensies werd geprojecteerd.

Ontdekkingen jaren van tevoren voorspellen

Dus als Word2vec zo slim is, zou het nieuwe thermo-elektrische materialen kunnen voorspellen? Een goed thermo-elektrisch materiaal kan warmte efficiënt omzetten in elektriciteit en is gemaakt van materialen die veilig zijn, overvloedig en gemakkelijk te produceren.

Het Berkeley Lab-team nam de beste thermo-elektrische kandidaten die door het algoritme werden voorgesteld, die elke verbinding rangschikte op basis van de gelijkenis van zijn woordvector met die van het woord 'thermo-elektrisch'. Daarna voerden ze berekeningen uit om de voorspellingen van het algoritme te verifiëren.

Van de top 10 voorspellingen, ze ontdekten dat ze allemaal vermogensfactoren hadden die iets hoger waren dan het gemiddelde van bekende thermo-elektriciteit; de top drie kandidaten hadden vermogensfactoren boven het 95e percentiel van bekende thermo-elektriciteit.

Vervolgens testten ze of het algoritme experimenten "in het verleden" kon uitvoeren door het slechts samenvattingen te geven tot, zeggen, het jaar 2000. Nogmaals, van de beste voorspellingen, een aanzienlijk aantal dook op in latere onderzoeken - vier keer meer dan wanneer materialen gewoon willekeurig waren gekozen. Bijvoorbeeld, drie van de top vijf voorspellingen die zijn getraind met behulp van gegevens tot het jaar 2008 zijn sindsdien ontdekt en de overige twee bevatten zeldzame of giftige elementen.

De resultaten waren verrassend. "Ik had eerlijk gezegd niet verwacht dat het algoritme zo voorspellend zou zijn voor toekomstige resultaten, "Zei Jain. "Ik had gedacht dat het algoritme misschien zou kunnen beschrijven wat mensen eerder hadden gedaan, maar niet met deze verschillende verbanden kwam. Ik was behoorlijk verrast toen ik niet alleen de voorspellingen zag, maar ook de redenering achter de voorspellingen, dingen als de half-Heusler-structuur, dat is tegenwoordig een erg hete kristalstructuur voor thermo-elektriciteit."

Hij voegde eraan toe:"Deze studie toont aan dat als dit algoritme eerder was ingevoerd, sommige materialen zouden mogelijk jaren van tevoren zijn ontdekt." Samen met het onderzoek geven de onderzoekers de top 50 thermo-elektrische materialen vrij die door het algoritme zijn voorspeld. Ze zullen ook het woord inbedding vrijgeven dat mensen nodig hebben om hun eigen toepassingen te maken als ze dat willen om op te zoeken, zeggen, een beter topologisch isolatiemateriaal.

Volgende, Jain zei dat het team werkt aan een slimmere, krachtigere zoekmachine, waardoor onderzoekers abstracts op een meer bruikbare manier kunnen doorzoeken.

De studie werd gefinancierd door Toyota Research Institute. Andere co-auteurs van het onderzoek zijn Berkeley Lab-onderzoekers John Dagdelen, Leigh Weston, Alexander Dunn, en Ziqin Rong, en UC Berkeley-onderzoeker Olga Kononova.