Wetenschap
Krediet:CC0 Publiek Domein
Hoewel het misschien het tijdperk is van supercomputers en "big data, " zonder slimme methoden om al die data te ontginnen, het is alleen zoveel digitaal afval. Nu hebben onderzoekers van het Lawrence Berkeley National Laboratory van het Department of Energy (Berkeley Lab) en UC Berkeley een nieuwe machine learning-methode bedacht waarmee wetenschappers in recordtijd inzichten kunnen ontlenen aan systemen van voorheen onhandelbare complexiteit.
In een onlangs gepubliceerd artikel in de Proceedings van de National Academy of Sciences ( PNAS ), beschrijven de onderzoekers een techniek genaamd "iterative Random Forests, " waarvan ze zeggen dat het een transformerend effect kan hebben op elk gebied van wetenschap of techniek met complexe systemen, inclusief biologie, precisie geneeskunde, materiaal kunde, Milieuwetenschappen, en productie, om er een paar te noemen.
"Neem een menselijke cel, bijvoorbeeld. Er zijn 10 170 mogelijke moleculaire interacties in een enkele cel. Dat zorgt voor aanzienlijke computeruitdagingen bij het zoeken naar relaties, " zei Ben Brown, hoofd van de afdeling Molecular Ecosystems Biology van Berkeley Lab. "Onze methode maakt de identificatie van interacties van hoge orde mogelijk tegen dezelfde rekenkosten als hoofdeffecten - zelfs wanneer die interacties lokaal zijn met zwakke marginale effecten."
Brown en Bin Yu van UC Berkeley zijn hoofdauteurs van "Iterative Random Forests to Discover Predictive and Stable High-Order Interactions." De co-eerste auteurs zijn Sumanta Basu (voorheen een gezamenlijke postdoc van Brown en Yu en nu een assistent-professor aan de Cornell University) en Karl Kumbier (een doctoraatsstudent van Yu in de UC Berkeley Statistics Department). Het artikel is het resultaat van drie jaar werk waarvan de auteurs denken dat het de manier waarop wetenschap wordt bedreven, zal veranderen. "Met onze methode kunnen we radicaal rijkere informatie verkrijgen dan we ooit hebben kunnen halen uit een leermachine, ' zei Bruin.
De behoeften van machine learning in de wetenschap zijn anders dan die van de industrie, waar machine learning is gebruikt voor zaken als schaken, zelfrijdende auto's maken, en het voorspellen van de aandelenmarkt.
"De machine learning die door de industrie is ontwikkeld, is geweldig als je hoogfrequente handel op de aandelenmarkt wilt doen, Brown zei. Het kan je niet schelen waarom je kunt voorspellen dat de voorraad omhoog of omlaag zal gaan. Je wilt gewoon weten dat je de voorspellingen kunt doen."
Maar in de wetenschap vragen over waarom een proces zich op bepaalde manieren gedraagt, zijn van cruciaal belang. Door te begrijpen "waarom" kunnen wetenschappers processen modelleren of zelfs engineeren om het gewenste resultaat te verbeteren of te bereiken. Als resultaat, machine learning voor de wetenschap moet in de zwarte doos kijken en begrijpen waarom en hoe computers tot de conclusies komen die ze hebben getrokken. Een langetermijndoel is om dit soort informatie te gebruiken om systemen te modelleren of te engineeren om de gewenste resultaten te verkrijgen.
In zeer complexe systemen - of het nu gaat om een enkele cel, het menselijk lichaam, of zelfs een heel ecosysteem - er is een groot aantal variabelen die op niet-lineaire manieren op elkaar inwerken. Dat maakt het moeilijk zo niet onmogelijk om een model te bouwen dat oorzaak en gevolg kan bepalen. "Helaas, in de biologie, je komt interacties tegen van orde 30, 40, 60 de hele tijd, Brown zei. "Het is volledig onhandelbaar met traditionele benaderingen van statistisch leren."
De methode ontwikkeld door het team onder leiding van Brown en Yu, iteratieve willekeurige forests (iRF), bouwt voort op een algoritme genaamd willekeurige bossen, een populaire en effectieve voorspellende modelleringstool, het vertalen van de interne toestanden van de black box-leerling in een door mensen interpreteerbare vorm. Hun aanpak stelt onderzoekers in staat om te zoeken naar complexe interacties door de volgorde te ontkoppelen, of maat, van interacties uit de computationele kosten van identificatie.
"Er is geen verschil in de rekenkosten van het detecteren van een interactie van orde 30 versus een interactie van orde twee, ' zei Brown. 'En dat is een ommezwaai.'
In de PNAS-paper, de wetenschappers demonstreerden hun methode op twee genomics-problemen, de rol van genversterkers in het fruitvliegembryo en alternatieve splicing in een van mensen afgeleide cellijn. In beide gevallen, het gebruik van iRF bevestigde eerdere bevindingen en onthulde ook eerder niet-geïdentificeerde interacties van hogere orde voor vervolgonderzoek.
Brown zei dat ze hun methode nu gebruiken voor het ontwerpen van phased array-lasersystemen en het optimaliseren van duurzame landbouwsystemen.
"Wij geloven dat dit een ander paradigma is voor het doen van wetenschap, " zei Yu, een professor in de afdelingen Statistiek en Elektrotechniek &Computerwetenschappen aan UC Berkeley. "We doen voorspelling, maar we introduceren stabiliteit bovenop voorspelling in iRF om de onderliggende structuur in de voorspellers betrouwbaarder te leren."
"Dit stelt ons in staat om te leren hoe we systemen kunnen ontwerpen voor doelgerichte optimalisatie en nauwkeuriger gerichte simulaties en vervolgexperimenten, ’ voegde Bruin eraan toe.
In een PNAS-commentaar op de techniek, Danielle Denisko en Michael Hoffman van de Universiteit van Toronto schreven:"iRF is veelbelovend als een nieuwe en effectieve manier om interacties in verschillende omgevingen te detecteren, en het gebruik ervan zal ons helpen ervoor te zorgen dat geen tak of blad ooit onberoerd blijft."
Wetenschap © https://nl.scienceaq.com