Wetenschap
Variabelen zoals het tijdstip van de dag, plaats en bevolkingsdichtheid helpen om een bepaald stuk grond te classificeren als al dan niet risico op inbraak op een bepaald moment. Krediet:ETH Zürich
Een nieuwe machine learning-methode ontwikkeld door ETH-wetenschappers maakt het mogelijk om inbraken zelfs in dunbevolkte gebieden te voorspellen.
Inbraken gebeuren niet altijd overal. bepaalde gemeenschappen, buurten en straten, evenals de seizoenen van het jaar en de tijden van de dag, een lager of hoger risico hebben op een inbraak. Met behulp van inbraakstatistieken, machine learning-technieken kunnen patronen identificeren en het risico van een inbraak op een specifieke locatie voorspellen. Zo kunnen computerprogramma's de politie helpen om inbraakhaarden – plaatsen met een bijzonder hoog risico op inbraak – op een willekeurige dag te identificeren, zodat ze dienovereenkomstig patrouilles kunnen inzetten.
Onevenwichtigheid in de klas maakt leren moeilijker
Daten, dergelijke waarschuwingssystemen werken alleen in dichtbevolkte gebieden, voornamelijk in steden. Dat komt omdat computerprogramma's voldoende gegevens nodig hebben om patronen te herkennen, en misdaad komt minder vaak voor in dunbevolkte gebieden. Dit wordt in de statistieken een "klasse-onevenwichtigheid" genoemd. specifiek, dit betekent dat voor elk weggedeelte waar een inbraak plaatsvindt, er zijn er honderden of zelfs duizenden die dat niet doen.
Algoritmen werken parallel
Cristina Kadar is computerwetenschapper en promovendus bij de afdeling Management, Technologie, en Economie. Ze heeft een methode ontwikkeld die ondanks onevenwichtige data toch betrouwbare voorspellingen kan doen. Haar onderzoek is zojuist gepubliceerd in het tijdschrift Decision Support Systems. Ze testte tal van machine learning-methoden met een grote dataset van inbraken in het Zwitserse kanton Aargau, combineerde ze en vergeleek de hitrates. Een methode die gebruik maakt van ensemble learning en analyses van verschillende algoritmen combineert, bleek het meest nauwkeurig.
Machine learning is wanneer een algoritme grote datasets gebruikt om zichzelf te trainen om gegevens correct te classificeren. In dit voorbeeld, er zijn variabelen nodig zoals het tijdstip van de dag, plaats, bevolkingsdichtheid en nog veel meer en leert van hen of een bepaald stuk grond op een bepaald moment al dan niet risico loopt op inbraak.
De uitdaging lag in het trainen van de classificatie-algoritmen ondanks het kleine aantal inbraken in de dataset. Kadar heeft de dataset voorverwerkt door willekeurig data-eenheden zonder inbraken te verwijderen totdat ze bij hetzelfde aantal eenheden met inbraken kwam als eenheden zonder. Deze statistische methode wordt "random undersampling" genoemd. Kadar heeft tal van classificatie-algoritmen getraind met deze gereduceerde dataset parallel, en hun geaggregeerde prognoses produceerden de inbraakprognose. Kadar nam rastercellen van 200 bij 200 meter op een bepaalde dag als haar individuele data-eenheden.
Terwijl conventionele waarschuwingssystemen voornamelijk gebruik maken van inbraakgegevens, Kadar voedde de classificatie-algoritmen ook met onpersoonlijke geaggregeerde bevolkingsgegevens, zoals bevolkingsdichtheid, leeftijdsstructuur, type gebouwontwikkeling, infrastructuur (aanwezigheid van scholen, politiebureaus, ziekenhuizen, wegen), nabijheid van landsgrenzen, evenals tijdelijke informatie inclusief dag van de week, feestdagen, uren daglicht en zelfs de fase van de maan.
Hit rate beter dan in steden
Met de nieuwe methode Kadar was in staat om de hit rate aanzienlijk te verbeteren in vergelijking met conventionele methoden. Ze gaf de computer opdracht om haar methode te gebruiken om hotspots te voorspellen waar in het kanton waarschijnlijk zou worden ingebroken. Uit een review bleek dat ongeveer 60 procent van de daadwerkelijke inbraken werd gepleegd in de voorspelde hotspots. Ter vergelijking, toen de hotspots werden voorspeld met de traditionele methode van de politie, slechts 53 procent van de daadwerkelijke inbraken vond plaats in het voorspelde gebied. "Met onevenwichtige gegevens, de methode behaalt minstens even goede en in sommige gevallen betere hitrates dan conventionele methoden in stedelijke gebieden, waar de gegevens dichter en gelijkmatiger zijn verdeeld, ' zegt Kadar.
De bevindingen zijn in de eerste plaats nuttig voor de politie, omdat de methode ook gebruikt kan worden om regio's en tijden te voorspellen met een verhoogd risico op inbraak in minder dichtbevolkte gebieden. Echter, er is geen reden waarom de methode niet zou kunnen worden gebruikt om andere risico's te voorspellen:gezondheidsrisico's, bijvoorbeeld, of de kans op noodoproepen naar de ambulancedienst. De vastgoedsector zou het ook kunnen gebruiken om de ontwikkeling van vastgoedprijzen te voorspellen op basis van ruimtelijke factoren.
Wetenschap © https://nl.scienceaq.com