Wetenschap
MIT-onderzoekers hebben een nieuwe machine learning-techniek gebruikt om valse positieven in fraudedetectietechnologieën aanzienlijk te verminderen. Krediet:Chelsea Turner
Heb je ooit je creditcard in een nieuwe winkel of locatie gebruikt om deze te laten weigeren? Is een verkoop ooit geblokkeerd omdat u een hoger bedrag in rekening heeft gebracht dan normaal?
Creditcards van consumenten worden verrassend vaak geweigerd bij legitieme transacties. Een oorzaak is dat fraudedetectietechnologieën die door de bank van een consument worden gebruikt, de verkoop ten onrechte als verdacht hebben gemarkeerd. Nu hebben MIT-onderzoekers een nieuwe machine learning-techniek gebruikt om deze valse positieven drastisch te verminderen, banken geld besparen en frustratie van klanten wegnemen.
Het gebruik van machine learning om financiële fraude op te sporen dateert uit het begin van de jaren negentig en is in de loop der jaren verbeterd. Onderzoekers trainen modellen om gedragspatronen te extraheren uit transacties uit het verleden, genaamd "functies, " dat duidt op fraude. Wanneer u uw kaart doorhaalt, de kaart pingt het model en, als de functies overeenkomen met fraudegedrag, de verkoop wordt geblokkeerd.
Achter de schermen, echter, datawetenschappers moeten die functies bedenken, die zich meestal concentreren op algemene regels voor hoeveelheid en locatie. Als een bepaalde klant meer uitgeeft dan zeggen, $2, 000 op één aankoop, of meerdere aankopen op dezelfde dag doet, ze kunnen worden gemarkeerd. Maar omdat het bestedingspatroon van consumenten varieert, zelfs in individuele accounts, deze modellen zijn soms onnauwkeurig:een rapport uit 2015 van Javelin Strategy and Research schat dat slechts één op de vijf fraudevoorspellingen correct is en dat de fouten een bank $ 118 miljard aan gederfde inkomsten kunnen kosten, als geweigerde klanten onthouden zich van het gebruik van die creditcard.
De MIT-onderzoekers hebben een 'automated feature engineering'-benadering ontwikkeld die meer dan 200 gedetailleerde functies voor elke afzonderlijke transactie extraheert. als een gebruiker aanwezig was tijdens aankopen, en het gemiddelde bedrag dat op bepaalde dagen bij bepaalde leveranciers is uitgegeven. Door het zo te doen, het kan beter lokaliseren wanneer het bestedingspatroon van een specifieke kaarthouder afwijkt van de norm.
Getest op een dataset van 1,8 miljoen transacties van een grote bank, het model verminderde vals-positieve voorspellingen met 54 procent ten opzichte van traditionele modellen, waarvan de onderzoekers schatten dat ze de bank 190 hadden kunnen besparen, 000 euro (ongeveer $ 220, 000) aan gederfde inkomsten.
"De grote uitdaging in deze branche zijn valse positieven, " zegt Kalyan Veeramachaneni, een hoofdonderzoeker bij MIT's Laboratory for Information and Decision Systems (LIDS) en co-auteur van een paper waarin het model wordt beschreven, die werd gepresenteerd op de recente European Conference for Machine Learning. "We kunnen zeggen dat er een direct verband is tussen feature-engineering en [het verminderen] van valse positieven. ... Dat is het meest impactvolle om de nauwkeurigheid van deze machine learning-modellen te verbeteren."
Paper co-auteurs zijn:hoofdauteur Roy Wedge, een voormalig onderzoeker in het Data to AI Lab bij LIDS; James Max Kanter '15, SM '15; en Santiago Moral Rubio en Sergio Iglesias Perez van Banco Bilbao Vizcaya Argentaria.
Extraheren van "diepe" functies
Drie jaar geleden, Veeramachaneni en Kanter ontwikkelden Deep Feature Synthesis (DFS), een geautomatiseerde aanpak die zeer gedetailleerde kenmerken uit alle gegevens haalt, en besloot het toe te passen op financiële transacties.
Ondernemingen organiseren soms wedstrijden waarbij ze een beperkte dataset leveren, samen met een voorspellingsprobleem zoals fraude. Datawetenschappers ontwikkelen voorspellingsmodellen, en een geldprijs gaat naar het meest nauwkeurige model. De onderzoekers deden mee aan zo'n wedstrijd en behaalden topscores met DFS.
Echter, ze realiseerden zich dat de aanpak zijn volledige potentieel zou kunnen bereiken als hij werd getraind op verschillende bronnen van onbewerkte gegevens. "Als je kijkt naar wat databedrijven vrijgeven, het is een klein stukje van wat ze werkelijk hebben, " zegt Veeramachaneni. "Onze vraag was, 'Hoe passen we deze benadering toe op echte bedrijven?'"
Ondersteund door het Data-Driven Discovery of Models-programma van het Defense Advanced Research Projects Agency, Kanter en zijn team bij FeatureLabs - een spin-out die de technologie commercialiseert - ontwikkelden een open-sourcebibliotheek voor geautomatiseerde feature-extractie, genaamd Featuretools, die in dit onderzoek is gebruikt.
De onderzoekers verkregen een driejarige dataset van een internationale bank, met gedetailleerde informatie over het transactiebedrag, keer, locaties, soorten leveranciers, en gebruikte terminals. Het bevatte ongeveer 900 miljoen transacties van ongeveer 7 miljoen individuele kaarten. Van die transacties rond 122, 000 werden bevestigd als fraude. De onderzoekers trainden en testten hun model op subsets van die gegevens.
In opleiding, het model zoekt naar patronen van transacties en tussen kaarten die overeenkomen met gevallen van fraude. Vervolgens combineert het automatisch alle verschillende variabelen die het vindt tot "diepe" functies die een zeer gedetailleerd beeld van elke transactie bieden. Uit de dataset, het DFS-model heeft voor elke transactie 237 functies geëxtraheerd. Die vertegenwoordigen sterk aangepaste variabelen voor kaarthouders, zegt Veeramachaneni. "Zeggen, op vrijdag, het is gebruikelijk dat een klant $ 5 of $ 15 dollar uitgeeft bij Starbucks, " zegt hij. "Die variabele ziet eruit als, 'Hoeveel geld is er op vrijdagochtend in een coffeeshop uitgegeven?'"
Vervolgens wordt voor dat account een als/dan-beslissingsboom gemaakt met functies die wel en niet op fraude wijzen. Wanneer een nieuwe transactie door de beslisboom wordt het model beslist in realtime of de transactie al dan niet frauduleus is.
Afgezet tegen een traditioneel model dat door een bank wordt gebruikt, het DFS-model genereerde ongeveer 133, 000 valse positieven versus 289, 000 valse positieven, ongeveer 54 procent minder incidenten. Dat, samen met een kleiner aantal gedetecteerde valse negatieven - daadwerkelijke fraude die niet werd gedetecteerd - zou de bank naar schatting 190 kunnen besparen, 000 euro, schatten de onderzoekers.
Primitieven stapelen
De ruggengraat van het model bestaat uit creatief gestapelde "primitieven, " eenvoudige functies die twee ingangen nodig hebben en een uitgang geven. Bijvoorbeeld, het berekenen van een gemiddelde van twee getallen is één primitief. Dat kan worden gecombineerd met een primitief die naar de tijdstempel van twee transacties kijkt om een gemiddelde tijd tussen transacties te krijgen. Het stapelen van een andere primitief die de afstand tussen twee adressen van die transacties berekent, geeft een gemiddelde tijd tussen twee aankopen op twee specifieke locaties. Een andere primitief kan bepalen of de aankoop op een weekdag of in het weekend is gedaan, enzovoort.
"Als we die primitieven eenmaal hebben, we zijn niet te stoppen om ze te stapelen ... en je begint deze interessante variabelen te zien waar je eerder niet aan had gedacht. Als je diep in het algoritme duikt, primitieven zijn de geheime saus, ' zegt Veeramachaneni.
Een belangrijk kenmerk dat het model genereert, Veeramachaneni-aantekeningen, berekent de afstand tussen die twee locaties en of ze persoonlijk of op afstand zijn gebeurd. Als iemand die iets koopt bij, zeggen, het Stata Center in persoon en, een half uur later, iets persoonlijks koopt op 200 mijl afstand, dan is de kans op fraude groot. Maar als er een aankoop plaatsvond via een mobiele telefoon, de fraudekans daalt.
"Er zijn zoveel functies die u kunt extraheren die gedrag kenmerken dat u in eerdere gegevens ziet die betrekking hebben op fraude of niet-fraudegevallen, ' zegt Veeramachaneni.
Dit verhaal is opnieuw gepubliceerd met dank aan MIT News (web.mit.edu/newsoffice/), een populaire site met nieuws over MIT-onderzoek, innovatie en onderwijs.
Wetenschap © https://nl.scienceaq.com