Science >> Wetenschap >  >> Chemie

Kristaltaal stelt AI in staat nieuwe materialen met gewenste eigenschappen te ontwerpen

Figuur 1. De analogie tussen SMILES en SLICES. Krediet:Hang Xiao

De afgelopen tien jaar zijn generatieve deep learning-modellen met succes toegepast op het ontwerp van nieuwe medicijnmoleculen, organische syntheseroutes en functionele moleculen die op maat zijn gemaakt voor elektronische/opto-elektronische apparaten. Dit wordt grotendeels mogelijk gemaakt door de beschikbaarheid van SMILES-representatie voor moleculen – een omkeerbare en invariante representatie die zeer geschikt is voor modellen voor natuurlijke taalverwerking zoals terugkerende neurale netwerken, transformatoren, enz.



Het ontwerpen van kristallijne anorganische vaste stoffen met de gewenste eigenschappen blijft echter een enorme uitdaging. Dit is voornamelijk te wijten aan het ontbreken van een "SMILES-equivalent" kristalrepresentatie om periodieke solid-state materialen en ultramoderne deep learning-architecturen te overbruggen.

Eerdere methoden voor invers kristalontwerp waren meestal afhankelijk van 3D-voxelroosters of absolute ruimtelijke coördinaten om structuren weer te geven. Maar deze benaderingen ontberen intrinsiek rotatie-invariantie. Er zijn ook pogingen om kristalgrafieken te gebruiken, die invariant zijn maar niet omkeerbaar vanwege het ontbreken van expliciete periodiciteit of samenstellingsinformatie. Om deze uitdaging aan te pakken, hebben we een nieuwe kristalrepresentatie voorgesteld, genaamd SLICES. Het onderzoek is gepubliceerd in het tijdschrift Nature Communications .

Het kernidee achter SLICES

De belangrijkste motivatie achter de ontwikkeling van SLICES is het creëren van een kristalrepresentatie die omkeerbaar en invariant is, analoog aan de SMILES-representatie die op grote schaal wordt gebruikt voor moleculair invers ontwerp (Figuur 1). Invertibiliteit betekent dat de representatie ondubbelzinnig kan worden teruggezet naar de oorspronkelijke kristalstructuur. Dit is essentieel voor generatieve modellen om invers ontwerp uit te voeren, waarbij de modellen nieuwe kristalstructuren creëren die uit de representatie worden gedecodeerd.

Invariantie geeft aan dat de representatie onveranderd blijft onder translaties, rotaties en permutaties van de kristalstructuur. Door invarianties te bevredigen, kan de representatie zich puur concentreren op het coderen van de essentiële topologische en compositorische informatie van een systeem in plaats van op oppervlakkige kenmerken die veranderen onder transformaties. Dit vermindert de redundantie en verbetert de leerefficiëntie.

Door te voldoen aan invertibiliteit en onveranderlijkheid maakt SLICES een efficiënte verkenning van de enorme ruimte voor chemische verbindingen voor kristallijne materialen mogelijk met behulp van diepgaande generatieve modellen.

Hoe SLICES kristallen vertegenwoordigen

Conceptueel gezien codeert SLICES de topologie en samenstelling van kristalstructuren in strings, net zoals SMILES moleculaire grafieken omzet in lijnnotaties. Meer specifiek maakt SLICES gebruik van het wiskundige concept van "gelabelde quotiëntgrafieken" om periodieke kristalstructuren weer te geven. De atomen en bindingen binnen een eenheidscel worden toegewezen aan knooppunten en randen van de quotiëntgrafiek. Er worden extra labels toegewezen aan randen die de periodieke verschuivingsvectoren aangeven die nodig zijn om equivalente atomen in aangrenzende eenheidscellen te verbinden.

Een voorbeeld is de kristalstructuur van diamant (Figuur 1), die twee koolstofatomen bevat die aan elkaar zijn gebonden in de primitieve eenheidscel. De SLICES-reeks codeert expliciet de atomaire symbolen "C" en het randlabel "001" dat de periodieke binding aangeeft die zich voortplant in de [001]-richting. Door de SLICES-reeks te ontleden, kunnen zowel de samenstelling als de connectiviteit van de diamantstructuur worden verkregen.

Met name codeert SLICES alleen topologie- en compositie-informatie. Attributen zoals atoomcoördinaten en roosterparameters zijn niet expliciet ingebed. Dit maakt SLICES door het ontwerp invariant voor vertalingen, rotaties en atoomindexpermutaties.

Figuur 2. Reconstructie van de kristalstructuur van NdSiRu op basis van de SLICES-reeks. Credit:Hang Xiao

Reconstrueren van kristalstructuren uit SLICES

Hoewel het coderen van kristallen in SLICES relatief eenvoudig is, ligt de uitdaging in het garanderen van invertibiliteit:het vermogen om kristalstructuren nauwkeurig opnieuw op te bouwen uit de SLICES-reeksen. Om invertibiliteit te bereiken, hebben we voor SLICES een reconstructiepijplijn ontwikkeld (Figuur 2) die drie belangrijke stappen bevat:

  1. Genereer een initiële structuur met behulp van grafentheorietechnieken op basis van de topologie- en connectiviteitsinformatie die is ontleed uit de invoer-SLICES-reeks.
  2. Optimaliseer de initiële structuur om een ​​chemisch redelijke geometrie te verkrijgen met behulp van een aangepast interatomair potentieel.
  3. Verfijn de structuur verder met een op grafieken gebaseerd neuraal netwerk, universeel kristalrelaxatiemodel.

De reconstructieprestaties werden vergeleken met een database die meer dan 40.000 experimenteel bekende materialen bevatte met maximaal 20 atomen per eenheidscel. De reconstructiepijplijn voor SLICES kon 94,95% van de oorspronkelijke structuren reconstrueren, wat aanzienlijk beter presteerde dan eerdere methoden. Deze omkeerbaarheid van SLICES maakt het mogelijk nieuwe structuren te genereren op basis van aangeleerde representaties, wat essentieel is voor het ontwerpen van omgekeerde materialen.

Figuur 3. Omgekeerd ontwerp van directe halfgeleiders met smalle opening voor opto-elektronische toepassingen. Credit:Hang Xiao

Toepassing in omgekeerd ontwerp van functionele materialen

Als demonstratie hebben we SLICES toegepast in het inverse ontwerp van directe halfgeleiders met smalle bandafstand voor opto-elektronische apparaten die gebruikmaken van terugkerende neurale netwerken (RNN). De workflow bestaat uit (Figuur 3):

  1. Het trainen van een RNN-model op bekende kristalstructuren om de onderliggende SLICES-syntaxis en compositie-/topologiekenmerken te leren die correleren met gerichte elektronische eigenschappen.
  2. De getrainde RNN gebruiken om hypothetische SLICES-reeksen te genereren.
  3. De SLICES-snaren reconstrueren tot kristalstructuren.
  4. Het screenen van de constructies met behulp van ab initio berekeningen en AI-modellen om kandidaten te identificeren die aan de ontwerpcriteria voldoen.

Door deze workflow, die SLICES, RNN en berekeningen met hoge doorvoer combineert, werden 14 nieuwe halfgeleiders met directe bandafstanden in het optimale bereik ontdekt (Figuur 4). Dit toont de belofte van SLICES aan als een middel voor versnelde ontdekking van functionele materialen met behulp van generatieve AI.

Figuur 4. 14 nieuwe directe halfgeleiders met smalle opening. Credit:Hang Xiao

Gerichte generatie van nieuwe materialen met gespecificeerde formatie-energieën

Daarnaast gebruiken we een conditional recurrent neural network (cRNN)-architectuur, zoals geïllustreerd in figuur 5, om SLICES-reeksen te genereren die overeenkomen met kristallen met een gewenste formatie-energie gespecificeerd door de gebruiker. De verdeling van de formatie-energieën van de gegenereerde structuren verschuift dichter naar de gespecificeerde doelwaarde ten opzichte van de datasetverdeling. Op SLICES gebaseerd cRNN presteert aanzienlijk beter dan eerdere state-of-the-art modellen. Deze aanpak markeert een aanzienlijke vooruitgang in het vermogen om nieuwe materialen op een gecontroleerde en nauwkeurige manier te ontwerpen en te ontdekken.

Figuur 5. Conditioneel RNN-model voor gecontroleerde generatie van kristallen met gewenste vormingsenergie. Credit:Hang Xiao

Als de eerste op strings gebaseerde inverteerbare en invariante kristalrepresentatie opent SLICES veel opwindende mogelijkheden in het omgekeerde ontwerp van kristallijne vaste stoffen, net zoals SMILES de afgelopen tien jaar voor moleculen heeft gedaan. Alleen al de afgelopen jaren zijn we getuige geweest van enorme vooruitgang in generatieve modellen, variërend van afbeeldingen, video's, spraak tot eiwitten en moleculen. We stellen ons voor dat vaste materialen de volgende grens zullen vormen, dankzij dit nieuwe vermogen voor data-efficiënte, chemie-geïntegreerde verkenning, mogelijk gemaakt door representaties als SLICES.

Dit verhaal maakt deel uit van Science X Dialog, waar onderzoekers bevindingen uit hun gepubliceerde onderzoeksartikelen kunnen rapporteren. Bezoek deze pagina voor informatie over ScienceX Dialog en hoe u kunt deelnemen.

Meer informatie: Hang Xiao et al, Een omkeerbare, invariante kristalrepresentatie voor omgekeerd ontwerp van vastestofmaterialen met behulp van generatief deep learning, Nature Communications (2023). DOI:10.1038/s41467-023-42870-7

Journaalinformatie: Natuurcommunicatie

Hang Xiao is verbonden aan de School of Interdisciplinaire Studies, Lingnan University; hij promoveerde aan de Columbia University. Yan Chen is verbonden aan het Laboratory for Multiscale Mechanics and Medical Science, SV LAB, School of Aerospace, Xi’an Jiaotong University, waar hij ook promoveerde.