Wetenschap
De exponentiële vooruitgang op het gebied van single-cell multi-omics-technologieën heeft geleid tot de accumulatie van grote en diverse multi-omics-datasets. De integratie van single-cell proteomics en transcriptomics (of epigenomics) gegevens vormt echter een aanzienlijke uitdaging voor bestaande methoden. Verschillende op transformatoren gebaseerde modellen, zoals Geneformer, hebben het paradigma van transcriptoomanalyse met één cel aanzienlijk veranderd. Deze methoden stellen echter aanzienlijke eisen aan de rekencapaciteit.
Om deze uitdagingen aan te pakken, hebben onderzoekers van de Wuhan Botanische Tuin van de Chinese Academie van Wetenschappen een op Transformer gebaseerde methode ontwikkeld, genaamd scmFormer, om grootschalige proteomics- en transcriptomics-gegevens van één cel te integreren met behulp van een multi-task-transformator. De studie getiteld "scmFormer Integrates Large-Scale Single-Cell Proteomics and Transcriptomics Data by Multi-Task Transformer" werd gepubliceerd in Advanced Science .
De onderzoekers presenteerden een uitgebreide evaluatie en maakten casestudy's van deze methode. De resultaten toonden aan dat scmFormer opmerkelijke vaardigheid vertoonde in het harmoniseren van grootschalige single-cell omics plus proteomics datasets op zowel het celtype als het fijnere celniveau met beperkte computerbronnen.
Bovendien beschikt scmFormer over de mogelijkheid om meerdere eencellige, gepaarde multimodale datasets te integreren, wat leidt tot het dubbele voordeel van lagere hoge kosten en verbeterde biologische inzichten.
Bovendien toont scmFormer een uitstekend vermogen om technische verschillen tussen verschillende omics-modaliteiten te elimineren, terwijl de onderliggende biologische informatie die inherent is aan de gegevens behouden blijft, zowel celtypen als experimentele omstandigheden omvattend.
De toepassing van scmFormer voor de integratie van twee COVID-19-datasets met 1,48 miljoen cellen demonstreerde verder het duidelijke voordeel van scmFormer voor het verwerken van grote datasets op gewone laptops.