science >> Wetenschap >  >> Elektronica

Kunstmatige intelligentie getraind om oorzakelijk verband te analyseren

Krediet:CC0 Publiek Domein

De oorzaken van echte problemen in de economie en de volksgezondheid kunnen notoir moeilijk te bepalen zijn. Vaak, meerdere oorzaken worden vermoed, maar grote datasets met tijdsequentiële data zijn niet beschikbaar. Eerdere modellen konden deze uitdagingen niet betrouwbaar analyseren. Nutsvoorzieningen, onderzoekers hebben het eerste kunstmatige-intelligentiemodel getest om veel oorzaken in echte problemen te identificeren en te rangschikken zonder tijdsgewijze gegevens, met behulp van een multi-nodale causale structuur en gerichte acyclische grafieken.

Als er iets ergs gebeurt, het is natuurlijk om te proberen erachter te komen waarom het is gebeurd. Wat veroorzaakte het? Als de oorzaak is vastgesteld, het kan mogelijk zijn om dezelfde uitkomst de volgende keer te vermijden. Echter, enkele manieren waarop mensen gebeurtenissen proberen te begrijpen, zoals toevlucht nemen tot bijgeloof, kan niet verklaren wat er werkelijk aan de hand is. Correlatie ook niet, wat alleen kan zeggen dat gebeurtenis B rond dezelfde tijd plaatsvond als gebeurtenis A.

Om echt te weten wat een gebeurtenis heeft veroorzaakt, we moeten kijken naar causaliteit - hoe informatie van de ene gebeurtenis naar de andere stroomt. Het is de informatiestroom die laat zien dat er een causaal verband is - dat gebeurtenis A gebeurtenis B veroorzaakte. Maar wat gebeurt er als de tijdsgewijze informatiestroom van gebeurtenis A naar gebeurtenis B ontbreekt? Algemene causaliteit is nodig om de oorzaken te identificeren.

Wiskundige modellen voor algemene causaliteit zijn zeer beperkt, werken voor maximaal twee oorzaken. Nutsvoorzieningen, in een doorbraak op het gebied van kunstmatige intelligentie, onderzoekers hebben het eerste robuuste model voor algemene causaliteit ontwikkeld dat meerdere causale verbanden identificeert zonder tijdsreeksgegevens, het Multivariate Additive Noise Model (MANM).

Onderzoekers van de Universiteit van Johannesburg, Zuid-Afrika, en Nationaal Instituut voor Technologie Rourkela, Indië, ontwikkelde het model en testte het op gesimuleerde, datasets uit de echte wereld. Het onderzoek is gepubliceerd in het tijdschrift Neurale netwerken .

"Uniek, het model kan meerdere identificeren, hiërarchische causale factoren. Het werkt zelfs als gegevens met tijdsvolgorde niet beschikbaar zijn. Het model biedt aanzienlijke mogelijkheden om complexe fenomenen te analyseren op gebieden als economie, uitbraken van ziekten, klimaatverandering en natuurbehoud, " zegt prof Tshilidzi Marwala, een professor in kunstmatige intelligentie, en wereldwijde AI- en economie-expert aan de Universiteit van Johannesburg, Zuid-Afrika.

"Het model is vooral handig bij de regionale, nationaal of mondiaal niveau waar geen gecontroleerde of natuurlijke experimenten mogelijk zijn, ", voegt Marwala toe.

Bijgeloof en correlatie met causaliteit

"Als een zwarte kat over de weg rent, of een uil loeit op een dak, sommige mensen zijn ervan overtuigd dat er iets ergs gaat gebeuren. Een mens kan denken dat er een verband is tussen het zien van de kat of de uil en wat er daarna gebeurde. Echter, vanuit het oogpunt van kunstmatige intelligentie, we zeggen dat er geen oorzakelijk verband is tussen de kat, de uil, en wat er gebeurt met de mensen die ze zien. De kat of de uil werden vlak voor het evenement gezien, maar ze zijn slechts in de tijd gecorreleerd met wat er later gebeurde, " zegt prof. Marwala.

In de tussentijd, in het huis waar de uil werd waargenomen, er kan iets sinisters aan de hand zijn. De familie binnenin glijdt misschien steeds dieper in de schulden. Een dergelijke financiële situatie kan ernstige beperkingen opleggen aan het huishouden, uiteindelijk een val worden waaruit weinig ontsnappen mogelijk is. Maar begrijpen de mensen die daar wonen de werkelijke causale verbanden tussen wat er met hen gebeurt, wat ze doen, en hun schuldenniveau?

Causaliteit op huishoudniveau

De oorzaken van aanhoudende schulden van huishoudens zijn een goed voorbeeld van waartoe het nieuwe model in staat is, zegt postdoctoraal onderzoeker Dr. Pramod Kumar Parida, hoofdauteur van het onderzoeksartikel.

"Op het niveau van het huishouden kan men zich afvragen:heeft het huishouden een deel van of al zijn inkomen verloren? Besteden sommige of alle leden boven hun inkomen? Is er iets gebeurd met leden van het huishouden waardoor enorme uitgaven worden afgedwongen, zoals medische of arbeidsongeschiktheidsrekeningen? Gebruiken ze hun spaargeld of beleggingen, welke zijn nu op? Gebeurt er een combinatie van deze dingen, als, wat zijn de meer dominante oorzaken van de schuld?"

Als er voldoende gegevens over de financiële transacties van het huishouden beschikbaar zijn, compleet met datum en tijd informatie, het is mogelijk dat iemand de werkelijke causale verbanden tussen inkomen, besteden, besparingen, investeringen en schulden.

In dit geval, eenvoudige causaliteitstheorie is voldoende om erachter te komen waarom dit huishouden het moeilijk heeft.

Algemene causaliteit op maatschappelijk niveau

Maar, zegt Parida, "Wat zijn de echte redenen waarom de meeste mensen in een stad of een regio het financieel moeilijk hebben? Waarom komen ze niet uit de schulden?" Nutsvoorzieningen, het is niet langer mogelijk voor een team van mensen om dit uit beschikbare gegevens te achterhalen, en een geheel nieuwe wiskundige uitdaging opent zich.

"Vooral als je de feitelijke causale verbanden wilt tussen het gezinsinkomen, besteden, spaargeld en schulden voor de stad of regio, in plaats van gissingen van experts of 'wat de meeste mensen geloven, "" hij voegt toe.

"Hier, causaliteitstheorie faalt, omdat de financiële transactiegegevens voor huishoudens in de stad of regio onvolledig zijn. Ook, datum- en tijdinformatie zal voor sommige gegevens ontbreken. Financiële strijd in lage, huishoudens met een gemiddeld en hoog inkomen kunnen heel verschillend zijn, dus u wilt de verschillende oorzaken uit de analyse zien, ' zegt Parida.

"Met dit model u kunt identificeren, kunt u meerdere belangrijke drijvende factoren identificeren die de schuld van het huishouden veroorzaken. In het model, we noemen deze factoren de onafhankelijke ouder causale verbanden. Je kunt ook zien welke causale verbanden dominanter zijn dan de andere. Met een tweede passage door de gegevens, je kunt ook de kleine drijvende factoren zien, wat we de onafhankelijke causale verbanden van het kind noemen. Op deze manier, het is mogelijk om een ​​mogelijke hiërarchie van causale verbanden te identificeren."

Aanzienlijk verbeterde causale analyse

Het Multivariate Additive Noise Model (MANM) biedt een aanzienlijk betere causale analyse van real-world datasets dan de momenteel in gebruik zijnde industriestandaardmodellen, zegt co-auteur Prof Snehashish Chakraverty, bij de groep Toegepaste Wiskunde, Afdeling Wiskunde, Nationaal Instituut voor Technologie Rourkela, Indië.

"Om een ​​complex regionaal probleem, zoals schulden van huishoudens of uitdagingen in de gezondheidszorg, te verbeteren, het is misschien niet voldoende om kennis te hebben van de patronen van de schuld, of van ziekte en de blootstelling. Integendeel, we moeten begrijpen waarom zulke patronen bestaan, om de beste manier te hebben om ze te veranderen. Eerdere modellen ontwikkeld door onderzoekers werkten met maximaal twee causale factoren, dat wil zeggen dat het bivariate modellen waren, die eenvoudigweg geen criteria voor meerdere functie-afhankelijkheid kon vinden, " hij zegt.

Gerichte acyclische grafieken

"MANM is gebaseerd op Directed Acyclic Graphs (DAG's), die een multi-nodale causale structuur kan identificeren. MANM kan elke mogelijke causale richting schatten in complexe feature sets, zonder ontbrekende of verkeerde richtingen."

Het gebruik van DAG's is een belangrijke reden waarom MANM aanzienlijk beter presteert dan eerder door anderen ontwikkelde modellen, die waren gebaseerd op Independent Component Analysis (ICA), zoals Lineair Niet-Gaussiaans Acyclisch Model (ICA-LiNGAM), Greedy DAG Search (GDS) en regressie met daaropvolgende onafhankelijke test (RESIT), hij zegt.

"Een ander belangrijk kenmerk van MANM is de voorgestelde Causal Influence Factor (CIF), voor de succesvolle ontdekking van causale richtingen in het multivariate systeem. De CIF-score geeft een betrouwbare indicator van de kwaliteit van de toevallige gevolgtrekking, waardoor de meeste ontbrekende of verkeerde richtingen in de resulterende causale structuur kunnen worden vermeden, " concludeert Chakraverty.

Waar een bestaande dataset beschikbaar is, MANM maakt het nu mogelijk om meerdere multi-nodale causale structuren binnen de set te identificeren. Als voorbeeld, MANM kan de meerdere oorzaken van aanhoudende schulden van huishoudens voor lage, huishoudens met een midden- en hoog inkomen in een regio.