Wetenschap
Lange niet-coderende RNA's (lncRNA's) zijn alomtegenwoordige transcripten met cruciale regulerende rollen in verschillende biologische processen, waaronder hermodellering van chromatine, post-transcriptionele regulatie en epigenetische modificaties. Hoewel het verzamelen van bewijs de mechanismen opheldert waarmee lncRNA's van planten de groei, wortelontwikkeling en kiemrust van zaden moduleren, blijft hun nauwkeurige identificatie een uitdaging vanwege een gebrek aan plantspecifieke methoden.
Momenteel worden de reguliere methoden voor de identificatie van lncRNA bij planten grotendeels ontwikkeld op basis van datasets van mens of dier. Bijgevolg is de nauwkeurigheid en effectiviteit van deze methoden bij het voorspellen van plant-lncRNA's niet volledig geëvalueerd.
Onlangs werd in Horticulture Research een onderzoeksartikel gepubliceerd met de titel "Plant-LncPipe:een computationele pijplijn die aanzienlijke verbetering biedt in de identificatie van plant-lncRNA" door een groep onder leiding van Jian-Feng Mao van de Beijing Forestry University en Umeå University. .
Deze studie verzamelde op grote schaal hoogwaardige RNA-sequencing-gegevens van verschillende planten en gebruikte deze plantspecifieke gegevens om de modellen van drie reguliere lncRNA-voorspellingsinstrumenten, namelijk CPAT, LncFinder en PLEK, opnieuw te trainen. De prestaties van de opnieuw getrainde modellen werden vergeleken en geëvalueerd met andere populaire lncRNA-voorspellingstools, zoals CPC2, CNCI, RNAplonc en LncADeep.
De resultaten toonden aan dat de opnieuw getrainde modellen de voorspellingsprestaties voor lncRNA's van planten aanzienlijk verbeterden. Onder hen presteerden twee opnieuw getrainde modellen, LncFinder-plant en CPAT-plant, beter dan andere op meerdere evaluatiestatistieken, waardoor ze de meest geschikte tools zijn voor de identificatie van lncRNA-fabrieken.
Dit onderzoek ontwikkelde een computationele pijplijn genaamd Plant-LncPipe voor de identificatie en analyse van lncRNA's van planten.
Deze pijplijn integreert twee best presterende identificatiemodellen, CPAT-fabriek en LncFinder-fabriek, waardoor een uitgebreid computerproces mogelijk wordt gemaakt dat de voorverwerking van ruwe gegevens, transcriptie-assemblage, lncRNA-identificatie, lncRNA-classificatie en lncRNA-oorsprong omvat. Deze computationele pijplijn kan op grote schaal worden toegepast op verschillende plantensoorten. Plant-LncPipe is openbaar beschikbaar.
De studie toont aan dat het opnieuw trainen van lncRNA-voorspellingsmodellen op basis van hoogwaardige planttranscriptiegegevens een nauwkeurigere registratie van plant-lncRNA-kenmerken mogelijk maakte, waardoor de voorspellingsprecisie en betrouwbaarheid aanzienlijk werd verbeterd. De studie onderstreepte het belang van soortspecifieke herscholing om de nauwkeurigheid van het model te verbeteren. Door bestaande, volwassen modellen opnieuw te trainen, werden eerder opgebouwde ervaringen en methodologieën behouden, terwijl de toepasbaarheid en nauwkeurigheid van het model verder werd vergroot.