Science >> Wetenschap >  >> Chemie

Het rectificeren van het gebruik van AI in de zoektocht naar thermo-elektrische materialen

Evaluatie van ML-modellen en hun voorspellingen voor nieuwe materialen. (a – c) Prestaties van het ML-model in (a) trainingsdataset, (b) testdataset, en (c) de aanvullende gegevens gepubliceerd in het jaar 2023; (d) screeningproces voor het selecteren van materialen uit de Materials Project-dataset; (e) het aantal verbindingen na elke screeningstap; (f) voorspelde zT-waarden voor de nieuwe materialen. Credit:Science China-materialen (2024). DOI:10.1007/s40843-023-2777-2

Een team van onderzoekers heeft AI gebruikt om een ​​thermo-elektrisch materiaal met gunstige waarden te identificeren. De groep wist de conventionele valkuilen en big data-uitdagingen van AI te omzeilen en bood een goed voorbeeld van hoe AI een revolutie teweeg kan brengen in de materiaalwetenschap. Details zijn gepubliceerd in het tijdschrift Science China Materials op 8 maart 2024.



"Traditionele methoden voor het vinden van geschikte materialen zijn vallen en opstaan, wat tijdrovend en vaak duur is", zegt Hao Li, universitair hoofddocent aan het Advanced Institute for Materials Research (WPI-AIMR) van Tohoku University en corresponderend auteur van het artikel. "AI transformeert dit door databases te doorzoeken om potentiële materialen te identificeren die vervolgens experimenteel kunnen worden geverifieerd."

Toch blijven er uitdagingen bestaan. Grootschalige materiaaldatasets bevatten soms fouten, en het overmatig aanpassen van de voorspelde temperatuurafhankelijke eigenschappen is ook een veel voorkomende fout. Overfitting vindt plaats wanneer een model leert ruis of willekeurige fluctuaties in de trainingsgegevens vast te leggen in plaats van het onderliggende patroon of de onderliggende relatie.

Het resultaat is dat het model goed presteert op basis van de trainingsgegevens, maar er niet in slaagt nieuwe, onzichtbare gegevens te generaliseren. Bij het voorspellen van temperatuurafhankelijke eigenschappen kan overfitting leiden tot onnauwkeurige voorspellingen wanneer het model nieuwe omstandigheden tegenkomt die buiten het bereik van de trainingsgegevens liggen.

Li en zijn collega's probeerden dit te overwinnen door een thermo-elektrisch materiaal te ontwikkelen. Deze materialen zetten warmte-energie om in elektrische energie, of omgekeerd. Het verkrijgen van een zeer nauwkeurige temperatuurafhankelijkheid is dus van cruciaal belang.

"Eerst hebben we een reeks rationele acties uitgevoerd om twijfelachtige gegevens te identificeren en te verwijderen, waarbij we 92.291 datapunten hebben verkregen, bestaande uit 7.295 composities en verschillende temperaturen, uit de Starrydata2-database - een online database die digitale gegevens uit gepubliceerde artikelen verzamelt", zegt Li.

Vervolgens bouwden de onderzoekers modellen voor machinebouw met behulp van de Gradient Boosting Decision Tree-methode. Het model behaalde opmerkelijke R2-waarden van 0,89, ~0,90 en ~0,89 op de trainingsdataset, testdataset en nieuwe experimentele gegevens buiten de steekproef die in 2023 werden vrijgegeven, wat de nauwkeurigheid van het model aantoont bij het voorspellen van nieuw beschikbare materialen.

"We zouden dit model kunnen gebruiken om een ​​grootschalige evaluatie van de stabiele materialen uit de Materials Project-database uit te voeren, de potentiële thermo-elektrische prestaties van nieuwe materialen te voorspellen en richtlijnen voor experimenten te bieden", zegt Xue Jia, assistent-professor bij WPI-AIMR, en co-auteur van het artikel.

Uiteindelijk illustreert de studie het belang van het volgen van strenge richtlijnen als het gaat om het voorbewerken en splitsen van data bij machinaal leren, zodat de dringende problemen in de materiaalkunde aangepakt kunnen worden. De onderzoekers zijn optimistisch dat hun strategie ook toepasbaar is op andere materialen, zoals elektrokatalysatoren en batterijen.

Meer informatie: Xue Jia et al., Omgaan met de big data-uitdagingen bij AI voor thermo-elektrische materialen, Science China Materials (2024). DOI:10.1007/s40843-023-2777-2

Aangeboden door Tohoku Universiteit