Wetenschap
Een team van onderzoekers van MIT, de Universiteit van Massachusetts in Amherst, en de University of California in Berkeley hopen de automatiseringskloof tussen materialen en wetenschap te dichten, met een nieuw kunstmatige-intelligentiesysteem dat onderzoekspapers zou doorzoeken om "recepten" af te leiden voor het produceren van bepaalde materialen. Krediet:Chelsea Turner/MIT
In recente jaren, onderzoeksinspanningen zoals het Materials Genome Initiative en het Materials Project hebben een schat aan computationele hulpmiddelen opgeleverd voor het ontwerpen van nieuwe materialen die nuttig zijn voor een reeks toepassingen, van energie en elektronica tot luchtvaart en civiele techniek.
Maar het ontwikkelen van processen voor het produceren van die materialen is nog steeds afhankelijk van een combinatie van ervaring, intuïtie, en handmatige literatuuroverzichten.
Een team van onderzoekers van MIT, de Universiteit van Massachusetts in Amherst, en de University of California in Berkeley hopen die automatiseringskloof tussen materialen en wetenschap te dichten, met een nieuw kunstmatige-intelligentiesysteem dat onderzoekspapers zou doorzoeken om "recepten" af te leiden voor het produceren van bepaalde materialen.
"Wetenschappers op het gebied van computermaterialen hebben veel vooruitgang geboekt in het 'wat' te maken - welk materiaal moet worden ontworpen op basis van gewenste eigenschappen, " zegt Elsa Olivetti, de Atlantic Richfield-assistent-hoogleraar energiestudies aan de afdeling Materials Science and Engineering (DMSE) van het MIT. "Maar door dat succes het knelpunt is verschoven naar, 'Oke, hoe maak ik het nu?'"
De onderzoekers stellen zich een database voor met recepten voor materialen die zijn geëxtraheerd uit miljoenen papieren. Wetenschappers en ingenieurs kunnen de naam van een doelmateriaal en andere criteria invoeren:voorlopermateriaal, reactieomstandigheden, fabricageprocessen - en haal voorgestelde recepten op.
Als een stap in de richting van het realiseren van die visie, Olivetti en haar collega's hebben een machine-leersysteem ontwikkeld dat een onderzoekspaper kan analyseren, afleiden welke van de paragrafen materiaalrecepten bevatten, en classificeer de woorden in die paragrafen volgens hun rol binnen de recepten:namen van doelmaterialen, numerieke hoeveelheden, namen van apparaten, bedrijfsomstandigheden, beschrijvende adjectieven, en dergelijke.
In een artikel dat verschijnt in het laatste nummer van het tijdschrift Chemie van materialen , ze tonen ook aan dat een machine-learningsysteem de geëxtraheerde gegevens kan analyseren om algemene kenmerken van materiaalklassen af te leiden - zoals de verschillende temperatuurbereiken die hun synthese vereist - of specifieke kenmerken van individuele materialen - zoals de verschillende fysieke vormen die ze zullen aannemen wanneer hun fabricageomstandigheden variëren.
Olivetti is de hoofdauteur van de krant, en ze wordt vergezeld door Edward Kim, een MIT-afgestudeerde student in DMSE; Kevin Huang, een DMSE-postdoc; Adam Saunders en Andrew McCallum, computerwetenschappers aan de UMass Amherst; en Gerbrand Ceder, een Chancellor's Professor bij de afdeling Materials Science and Engineering in Berkeley.
De gaten opvullen
De onderzoekers trainden hun systeem met behulp van een combinatie van gesuperviseerde en niet-gesuperviseerde machine learning-technieken. "Bewaakt" betekent dat de trainingsgegevens die aan het systeem worden ingevoerd, eerst door mensen worden geannoteerd; het systeem probeert correlaties te vinden tussen de ruwe data en de annotaties. "Unsupervised" betekent dat de trainingsgegevens ongeannoteerd zijn, en het systeem leert in plaats daarvan gegevens te clusteren volgens structurele overeenkomsten.
Omdat extractie van materiaalrecepten een nieuw onderzoeksgebied is, Olivetti en haar collega's hadden niet de luxe van grote, geannoteerde datasets die in de loop der jaren zijn verzameld door diverse teams van onderzoekers. In plaats daarvan, ze moesten hun gegevens zelf annoteren - uiteindelijk ongeveer 100 papieren.
Volgens machine learning-normen, dat is een vrij kleine dataset. Om het te verbeteren, ze gebruikten een algoritme dat is ontwikkeld door Google, genaamd Word2vec. Word2vec kijkt naar de contexten waarin woorden voorkomen - de syntactische rollen van de woorden binnen zinnen en de andere woorden eromheen - en groepeert woorden die vaak een vergelijkbare context hebben. Dus, bijvoorbeeld, als één papier de zin bevatte:"We verwarmden de titaniumtetracholoride tot 500 C, " en een andere bevatte de zin "Het natriumhydroxide werd verwarmd tot 500 C, " Word2vec zou "titaniumtetracholoride" en "natriumhydroxide" samen groeperen.
Met Word2vec, konden de onderzoekers hun trainingsset flink uitbreiden, omdat het machine-leersysteem zou kunnen concluderen dat een label dat aan een bepaald woord is gehecht, waarschijnlijk ook van toepassing is op andere woorden die ermee zijn geclusterd. In plaats van 100 papieren, zo konden de onderzoekers hun systeem trainen op ongeveer 640, 000 papieren.
Topje van de ijsberg
Om de nauwkeurigheid van het systeem te testen, echter, ze moesten vertrouwen op de gelabelde gegevens, omdat ze geen criterium hadden om de prestaties ervan op de niet-gelabelde gegevens te evalueren. In die testen, het systeem was in staat om met 99 procent nauwkeurigheid de alinea's met recepten te identificeren en de woorden in die alinea's met een nauwkeurigheid van 86 procent te labelen.
De onderzoekers hopen dat verder werk de nauwkeurigheid van het systeem zal verbeteren, en in lopend werk onderzoeken ze een reeks diepgaande leertechnieken die verdere generalisaties kunnen maken over de structuur van materiaalrecepten, met als doel automatisch recepten te bedenken voor materialen die in de bestaande literatuur niet aan bod komen.
Veel van Olivetti's eerdere onderzoek was gericht op het vinden van meer kosteneffectieve en milieuverantwoorde manieren om bruikbare materialen te produceren, en ze hoopt dat een database met recepten voor materialen dat project zou kunnen ondersteunen.
"Dit is baanbrekend werk, " zegt Ram Seshadri, de Fred en Linda R. Wudl hoogleraar materiaalkunde aan de Universiteit van Californië in Santa Barbara. "De auteurs zijn de moeilijke en ambitieuze uitdaging aangegaan om vast te leggen, via AI-methoden, strategieën die worden gebruikt voor de voorbereiding van nieuwe materialen. Het werk demonstreert de kracht van machine learning, maar het zou juist zijn om te zeggen dat de uiteindelijke beoordelaar van succes of falen zou vereisen dat beoefenaars ervan worden overtuigd dat het nut van dergelijke methoden hen in staat kan stellen hun meer instinctieve benaderingen op te geven.
Dit verhaal is opnieuw gepubliceerd met dank aan MIT News (web.mit.edu/newsoffice/), een populaire site met nieuws over MIT-onderzoek, innovatie en onderwijs.
Wetenschap © https://nl.scienceaq.com