science >> Wetenschap >  >> Elektronica

Neurale netwerk dat potentiële medicijnen veilig vindt, kan grootschalige pooling van gevoelige gegevens aanmoedigen

AI zal dienen om een ​​netwerkcontrolesysteem te ontwikkelen dat niet alleen problemen detecteert en erop reageert, maar ze ook kan voorspellen en vermijden. Krediet:CC0 Publiek Domein

MIT-onderzoekers hebben een cryptografisch systeem ontwikkeld dat neurale netwerken kan helpen bij het identificeren van veelbelovende kandidaat-geneesmiddelen in enorme farmacologische datasets. terwijl de gegevens privé blijven. Veilige berekeningen op zo'n enorme schaal kunnen een brede bundeling van gevoelige farmacologische gegevens mogelijk maken voor voorspellende ontdekking van geneesmiddelen.

Datasets van geneesmiddel-doelwitinteracties (DTI), die laten zien of kandidaat-verbindingen inwerken op doeleiwitten, zijn van cruciaal belang bij het helpen van onderzoekers bij het ontwikkelen van nieuwe medicijnen. Modellen kunnen worden getraind om datasets van bekende DTI's te kraken en vervolgens, met behulp van die informatie, nieuwe kandidaat-geneesmiddelen vinden.

In recente jaren, farmaceutische bedrijven, universiteiten, en andere entiteiten staan ​​open voor het bundelen van farmacologische gegevens in grotere databases die de training van deze modellen aanzienlijk kunnen verbeteren. Vanwege intellectuele eigendomskwesties en andere privacykwesties, echter, deze datasets blijven beperkt in omvang. Cryptografiemethoden om de gegevens te beveiligen zijn zo rekenintensief dat ze niet goed schalen naar datasets daarbuiten, zeggen, tienduizenden DTI's, wat relatief klein is.

In een paper gepubliceerd in Wetenschap , onderzoekers van MIT's Computer Science and Artificial Intelligence Laboratory (CSAIL) beschrijven een neuraal netwerk dat veilig is getraind en getest op een dataset van meer dan een miljoen DTI's. Het netwerk maakt gebruik van moderne cryptografische tools en optimalisatietechnieken om de invoergegevens privé te houden, terwijl u snel en efficiënt op schaal werkt.

De experimenten van het team laten zien dat het netwerk sneller en nauwkeuriger presteert dan bestaande benaderingen; het kan enorme datasets in dagen verwerken, terwijl andere cryptografische kaders maanden zouden duren. Bovendien, het netwerk identificeerde verschillende nieuwe interacties, waaronder een tussen het leukemiemedicijn imatinib en een enzym ErbB4 - waarvan mutaties in verband zijn gebracht met kanker - wat klinische betekenis zou kunnen hebben.

"Mensen realiseren zich dat ze hun gegevens moeten bundelen om het ontdekkingsproces van geneesmiddelen aanzienlijk te versnellen en ons in staat te stellen, samen, om wetenschappelijke vooruitgang te boeken bij het oplossen van belangrijke menselijke ziekten, zoals kanker of diabetes. Maar ze hebben geen goede manieren om het te doen, " zegt corresponderend auteur Bonnie Berger, de Simons hoogleraar wiskunde en hoofdonderzoeker bij CSAIL. "Met dit werk we bieden deze entiteiten een manier om hun gegevens op zeer grote schaal efficiënt te bundelen en te analyseren."

Naast Berger op het papier zijn co-eerste auteurs Brian Hie en Hyunghoon Cho, zowel afgestudeerde studenten in elektrotechniek en informatica als onderzoekers in de Computation and Biology-groep van CSAIL.

Gegevens "geheim delen"

Het nieuwe artikel bouwt voort op eerder werk van de onderzoekers bij het beschermen van de vertrouwelijkheid van patiënten in genomische studies, die verbanden vinden tussen bepaalde genetische varianten en de incidentie van ziekten. Dat genomische gegevens mogelijk persoonlijke informatie kunnen onthullen, dus patiënten kunnen terughoudend zijn om zich in te schrijven voor de onderzoeken. In dat werk, Berger, Cho, en een voormalige Stanford University Ph.D. student ontwikkelde een protocol op basis van een cryptografieraamwerk genaamd "geheim delen, " die veilig en efficiënt datasets van een miljoen genomen analyseert. bestaande voorstellen konden slechts een paar duizend genomen aan.

Geheim delen wordt gebruikt bij berekeningen met meerdere partijen, waar gevoelige gegevens worden verdeeld in afzonderlijke "shares" tussen meerdere servers. Tijdens de berekening, elke partij heeft altijd alleen haar aandeel in de gegevens, die volledig willekeurig lijkt. collectief, echter, de servers kunnen nog steeds communiceren en nuttige bewerkingen uitvoeren op de onderliggende privégegevens. Aan het einde van de berekening, wanneer een resultaat nodig is, de partijen combineren hun aandelen om het resultaat te onthullen.

"We gebruikten ons eerdere werk als basis om geheim delen toe te passen op het probleem van farmacologische samenwerking, maar het werkte niet direct van de plank, ' zegt Berger.

Een belangrijke innovatie was het verminderen van de benodigde rekenkracht voor training en testen. Bestaande voorspellende modellen voor het ontdekken van geneesmiddelen vertegenwoordigen de chemische en eiwitstructuren van DTI's als grafieken of matrices. Deze benaderingen, echter, schaal kwadratisch, of vierkant, met het aantal DTI's in de dataset. In principe, het verwerken van deze representaties wordt extreem rekenintensief naarmate de dataset groter wordt. "Hoewel dat prima is voor het werken met de onbewerkte gegevens, als je dat in veilige berekening probeert, het is onhaalbaar, "Hee zegt.

De onderzoekers trainden in plaats daarvan een neuraal netwerk dat afhankelijk is van lineaire berekeningen, die veel efficiënter met de gegevens schalen. "We hadden absoluut behoefte aan schaalbaarheid, omdat we een manier proberen te bieden om gegevens samen te voegen [in] veel grotere gegevenssets, ' zegt Cho.

De onderzoekers trainden een neuraal netwerk op de STITCH-dataset, die 1,5 miljoen DTI's heeft, waardoor het de grootste openbaar beschikbare dataset in zijn soort is. In opleiding, het netwerk codeert voor elke geneesmiddelverbinding en eiwitstructuur als een eenvoudige vectorrepresentatie. Dit condenseert in wezen de gecompliceerde structuren als enen en nullen die een computer gemakkelijk kan verwerken. Van die vectoren, het netwerk leert dan de patronen van interacties en niet-interacties. Nieuwe combinaties van verbindingen en eiwitstructuren gevoed, het netwerk voorspelt vervolgens of ze zullen communiceren.

Het netwerk heeft ook een architectuur die is geoptimaliseerd voor efficiëntie en veiligheid. Elke laag van een neuraal netwerk vereist een activeringsfunctie die bepaalt hoe de informatie naar de volgende laag moet worden verzonden. In hun netwerk de onderzoekers gebruikten een efficiënte activeringsfunctie die een rectified linear unit (ReLU) wordt genoemd. Deze functie vereist slechts een enkele, veilige numerieke vergelijking van een interactie om te bepalen of de gegevens naar de volgende laag moeten worden verzonden (1) of niet (0), terwijl ze ook nooit iets onthullen over de werkelijke gegevens. Deze bewerking kan efficiënter zijn in veilige berekening in vergelijking met complexere functies, dus het vermindert de rekenlast en waarborgt de gegevensprivacy.

"De reden dat dat belangrijk is, is dat we dit willen doen binnen het raamwerk voor geheim delen ... en we willen de rekenkundige overhead niet verhogen, " zegt Berger. Uiteindelijk "geen parameters van het model worden onthuld en alle invoergegevens - de medicijnen, doelen, en interacties - worden privé gehouden."

Interacties vinden

De onderzoekers zetten hun netwerk tegenover een aantal state-of-the-art, platte tekst (niet-versleutelde) modellen op een deel van bekende DTI's van DrugBank, een populaire dataset met ongeveer 2, 000 DTI's. Naast het privé houden van de gegevens, het netwerk van de onderzoekers presteerde beter dan alle modellen in voorspellingsnauwkeurigheid. Slechts twee basismodellen konden redelijkerwijs worden geschaald naar de STITCH-dataset, en het model van de onderzoekers bereikte bijna het dubbele van de nauwkeurigheid van die modellen.

De onderzoekers testten ook geneesmiddel-doelwitparen zonder vermelde interacties in STITCH, en vond verschillende klinisch vastgestelde interacties tussen geneesmiddelen die niet in de database stonden, maar dat wel zouden moeten zijn. In de krant, de onderzoekers zetten de sterkste voorspellingen op een rij, waaronder:droloxifen en een oestrogeenreceptor, die fase III klinische proeven bereikten als behandeling voor borstkanker; en seocalcitol en een vitamine D-receptor om andere vormen van kanker te behandelen. Cho en Hie valideerden onafhankelijk de hoogst scorende nieuwe interacties via contractonderzoeksorganisaties.

Volgende, de onderzoekers werken samen met partners om hun gezamenlijke pijplijn in een echte wereld tot stand te brengen. "We zijn geïnteresseerd in het samenstellen van een omgeving voor veilige berekeningen, zodat we ons beveiligde protocol kunnen uitvoeren met echte gegevens, ' zegt Cho.

Dit verhaal is opnieuw gepubliceerd met dank aan MIT News (web.mit.edu/newsoffice/), een populaire site met nieuws over MIT-onderzoek, innovatie en onderwijs.