science >> Wetenschap >  >> Elektronica

Deep learning helpt geninteracties te ontrafelen

Krediet:CC0 Publiek Domein

Computerwetenschappers van de Carnegie Mellon University hebben een diepgaande leermethode ontwikkeld die de afgelopen jaren een revolutie teweeg heeft gebracht in gezichtsherkenning en andere op afbeeldingen gebaseerde toepassingen, en hebben de kracht ervan om de relatie tussen genen te onderzoeken, omgebogen.

De truc, ze zeggen, is om enorme hoeveelheden gegevens over genexpressie om te zetten in iets dat meer op een afbeelding lijkt. Convolutionele neurale netwerken (CNN's), die bedreven zijn in het analyseren van visuele beelden, kan dan afleiden welke genen met elkaar interageren. De CNN's presteren bij deze taak beter dan bestaande methoden.

Het rapport van de onderzoekers over hoe CNN's kunnen helpen bij het identificeren van ziektegerelateerde genen en ontwikkelings- en genetische routes die mogelijk doelwitten zijn voor medicijnen, wordt vandaag gepubliceerd in de Proceedings van de National Academy of Science . Maar Ziv Bar-Joseph, hoogleraar computationele biologie en machine learning, zeiden de toepassingen voor de nieuwe methode, genaamd CNNC, veel verder kunnen gaan dan geninteracties.

Het nieuwe inzicht dat in het artikel wordt beschreven, suggereert dat CNNC op dezelfde manier kan worden ingezet om causaliteit in een breed scala aan verschijnselen te onderzoeken, inclusief financiële gegevens en sociale netwerken, zei Bar-Joseph, die samen met Ye Yuan het artikel schreef, een postdoctoraal onderzoeker bij de afdeling Machine Learning van CMU.

"CNN's, die tien jaar geleden werden ontwikkeld, zijn revolutionair, " zei Bar-Joseph. "Ik ben nog steeds onder de indruk van Google Foto's, die ze gebruikt voor gezichtsherkenning, " voegde hij eraan toe terwijl hij door foto's op zijn smartphone scrolde, laten zien hoe de app zijn zoon op verschillende leeftijden kon identificeren, of zijn vader identificeren op basis van een afbeelding van de rechterachterkant van zijn hoofd. "Soms beschouwen we deze technologie als vanzelfsprekend omdat we ze de hele tijd gebruiken. Maar het is ongelooflijk krachtig en beperkt zich niet tot afbeeldingen. Het is allemaal een kwestie van hoe je je gegevens representeert."

In dit geval, hij en Yuan keken naar genrelaties. De ongeveer 20, 000 genen bij mensen werken samen, dus het is noodzakelijk om te weten hoe genen samenwerken in complexen of netwerken om menselijke ontwikkeling of ziekten te begrijpen.

Een manier om deze relaties af te leiden, is door te kijken naar genexpressie, die de activiteitsniveaus van genen in cellen vertegenwoordigt. Over het algemeen, als gen A tegelijkertijd actief is, is gen B actief, dat is een aanwijzing dat de twee met elkaar omgaan, zei Yuan. Nog altijd, het is mogelijk dat dit toeval is of dat beide worden geactiveerd door een derde gen C. Er zijn verschillende eerdere methoden ontwikkeld om deze relaties te ontrafelen.

CNN's gebruiken om genrelaties te analyseren, Yuan en Bar-Joseph gebruikten eencellige expressiegegevens – experimenten die het niveau van elk gen in een enkele cel kunnen bepalen. De resultaten van honderdduizenden van deze eencellige analyses werden vervolgens gerangschikt in de vorm van een matrix of histogram, zodat elke cel van de matrix een ander niveau van co-expressie voor een paar genen vertegenwoordigde.

Door de gegevens op deze manier te presenteren, werd een ruimtelijk aspect toegevoegd dat de gegevens meer beeldachtig maakte en, dus, toegankelijker voor CNN's. Door gegevens te gebruiken van genen waarvan de interacties al waren vastgesteld, de onderzoekers waren in staat om de CNN's te trainen om te herkennen welke genen met elkaar in wisselwerking stonden en welke niet waren gebaseerd op de visuele patronen in de datamatrix, zei Yuan.

"Het is heel, zeer moeilijk onderscheid te maken tussen causaliteit en correlatie, " zei Yuan, maar de CNNC-methode bleek statistisch nauwkeuriger dan bestaande methoden. Hij en Bar-Joseph verwachten dat CNNC een van de vele technieken zal zijn die onderzoekers uiteindelijk zullen gebruiken bij het analyseren van grote datasets.

"Dit is een zeer algemene methode die kan worden toegepast op een aantal analyses, " zei Bar-Joseph. De belangrijkste beperking zijn gegevens - hoe meer gegevens er zijn, hoe beter CNN's werken. Celbiologie is zeer geschikt voor het gebruik van CNNC, aangezien een typisch experiment tienduizenden cellen kan omvatten en een enorme hoeveelheid gegevens kan genereren.