Science >> Wetenschap >  >> Biologie

Een nieuw hulpmiddel voor de identificatie van niet-coderend RNA van planten

ROC-curven van de opnieuw getrainde en originele modellen op datasets van 20 plantensoorten. Een ROC-curve van het opnieuw getrainde CPAT-fabrieksmodel en de vergelijking ervan met de originele modellen voor mens en muis. B ROC-curven van het opnieuw getrainde LncFinder-plantmodel en vergelijking met de originele modellen voor mens, muis en tarwe. C ROC-curven van het opnieuw getrainde PLEK-plantmodel en de vergelijking ervan met het oorspronkelijke model voor de mens. Credit:Tuinbouwonderzoek (2024). DOI:10,1093/uur/uhae041

Lange niet-coderende RNA's (lncRNA's) zijn alomtegenwoordige transcripten met cruciale regulerende rollen in verschillende biologische processen, waaronder hermodellering van chromatine, post-transcriptionele regulatie en epigenetische modificaties. Hoewel het verzamelen van bewijs de mechanismen opheldert waarmee lncRNA's van planten de groei, wortelontwikkeling en kiemrust van zaden moduleren, blijft hun nauwkeurige identificatie een uitdaging vanwege een gebrek aan plantspecifieke methoden.



Momenteel worden de reguliere methoden voor de identificatie van lncRNA bij planten grotendeels ontwikkeld op basis van datasets van mens of dier. Bijgevolg is de nauwkeurigheid en effectiviteit van deze methoden bij het voorspellen van plant-lncRNA's niet volledig geëvalueerd.

Onlangs werd in Horticulture Research een onderzoeksartikel gepubliceerd met de titel "Plant-LncPipe:een computationele pijplijn die aanzienlijke verbetering biedt in de identificatie van plant-lncRNA" door een groep onder leiding van Jian-Feng Mao van de Beijing Forestry University en Umeå University. .

Deze studie verzamelde op grote schaal hoogwaardige RNA-sequencing-gegevens van verschillende planten en gebruikte deze plantspecifieke gegevens om de modellen van drie reguliere lncRNA-voorspellingsinstrumenten, namelijk CPAT, LncFinder en PLEK, opnieuw te trainen. De prestaties van de opnieuw getrainde modellen werden vergeleken en geëvalueerd met andere populaire lncRNA-voorspellingstools, zoals CPC2, CNCI, RNAplonc en LncADeep.

De resultaten toonden aan dat de opnieuw getrainde modellen de voorspellingsprestaties voor lncRNA's van planten aanzienlijk verbeterden. Onder hen presteerden twee opnieuw getrainde modellen, LncFinder-plant en CPAT-plant, beter dan andere op meerdere evaluatiestatistieken, waardoor ze de meest geschikte tools zijn voor de identificatie van lncRNA-fabrieken.

Dit onderzoek ontwikkelde een computationele pijplijn genaamd Plant-LncPipe voor de identificatie en analyse van lncRNA's van planten.

Deze pijplijn integreert twee best presterende identificatiemodellen, CPAT-fabriek en LncFinder-fabriek, waardoor een uitgebreid computerproces mogelijk wordt gemaakt dat de voorverwerking van ruwe gegevens, transcriptie-assemblage, lncRNA-identificatie, lncRNA-classificatie en lncRNA-oorsprong omvat. Deze computationele pijplijn kan op grote schaal worden toegepast op verschillende plantensoorten. Plant-LncPipe is openbaar beschikbaar.

De studie toont aan dat het opnieuw trainen van lncRNA-voorspellingsmodellen op basis van hoogwaardige planttranscriptiegegevens een nauwkeurigere registratie van plant-lncRNA-kenmerken mogelijk maakte, waardoor de voorspellingsprecisie en betrouwbaarheid aanzienlijk werd verbeterd. De studie onderstreepte het belang van soortspecifieke herscholing om de nauwkeurigheid van het model te verbeteren. Door bestaande, volwassen modellen opnieuw te trainen, werden eerder opgebouwde ervaringen en methodologieën behouden, terwijl de toepasbaarheid en nauwkeurigheid van het model verder werd vergroot.

Meer informatie: Xue-Chan Tian et al, Plant-LncPipe:een computationele pijplijn die een aanzienlijke verbetering oplevert in de identificatie van plant-lncRNA, Horticulture Research (2024). DOI:10,1093/uur/uhae041

Journaalinformatie: Tuinbouwonderzoek

Aangeboden door de Chinese Academie van Wetenschappen