science >> Wetenschap >  >> Elektronica

Model verslaat Wall Street-analisten bij het voorspellen van bedrijfsfinanciën

Krediet:CC0 Publiek Domein

Het kennen van de werkelijke verkopen van een bedrijf kan helpen bij het bepalen van de waarde ervan. investeerders, bijvoorbeeld, maken vaak gebruik van financiële analisten om de aanstaande inkomsten van een bedrijf te voorspellen met behulp van verschillende openbare gegevens, rekentools, en hun eigen intuïtie. Nu hebben MIT-onderzoekers een geautomatiseerd model ontwikkeld dat aanzienlijk beter presteert dan mensen bij het voorspellen van bedrijfsverkopen met behulp van zeer beperkte, "luidruchtige" gegevens.

op het gebied van financiën, er is een groeiende belangstelling voor het gebruik van onnauwkeurige, maar vaak gegenereerde consumentengegevens, 'alternatieve gegevens' genoemd, om de inkomsten van een bedrijf te helpen voorspellen voor handels- en investeringsdoeleinden. Alternatieve gegevens kunnen creditcardaankopen, locatiegegevens van smartphones, of zelfs satellietbeelden die laten zien hoeveel auto's er op de parkeerplaats van een winkelier staan. Door alternatieve gegevens te combineren met meer traditionele maar zeldzame financiële gegevens, zoals kwartaalresultaten, persberichten, en aandelenkoersen - kunnen zelfs op dagelijkse of wekelijkse basis een duidelijker beeld schetsen van de financiële gezondheid van een bedrijf.

Maar, tot dusver, het was erg moeilijk om nauwkeurig te worden, frequente schattingen met behulp van alternatieve gegevens. In een paper dat deze week is gepubliceerd in de Proceedings of ACM Sigmametrics Conference, de onderzoekers beschrijven een model voor het voorspellen van financiële gegevens dat alleen geanonimiseerde wekelijkse creditcardtransacties en driemaandelijkse inkomstenrapporten gebruikt.

Belast met het voorspellen van kwartaalresultaten van meer dan 30 bedrijven, het model presteerde beter dan de gecombineerde schattingen van deskundige Wall Street-analisten op 57 procent van de voorspellingen. Opmerkelijk, de analisten toegang hadden tot alle beschikbare privé- of openbare gegevens en andere modellen voor machinaal leren, terwijl het model van de onderzoekers een zeer kleine dataset van de twee datatypes gebruikte.

"Alternatieve gegevens zijn zo raar, proxysignalen om de onderliggende financiële gegevens van een bedrijf te volgen, " zegt eerste auteur Michael Fleder, een postdoc in het Laboratorium voor Informatie- en Beslissystemen (LIDS). "We vroegen, 'Kun je deze ruissignalen combineren met kwartaalcijfers om de werkelijke financiële situatie van een bedrijf bij hoge frequenties te schatten?' Het antwoord blijkt ja te zijn."

Het model kan investeerders een voorsprong geven, handelaren, of bedrijven die hun verkopen regelmatig willen vergelijken met die van concurrenten. Naast financiën, het model zou sociale en politieke wetenschappers kunnen helpen, bijvoorbeeld, geaggregeerd studeren, anonieme gegevens over publiek gedrag. "Het is nuttig voor iedereen die wil weten wat mensen aan het doen zijn, ' zegt Fledder.

Bij Fleder op het papier staat EECS-professor Devavrat Shah, wie is de directeur van MIT's Statistics and Data Science Center, lid van het Laboratorium voor Informatie- en Beslissystemen, een hoofdonderzoeker voor het MIT Institute for Foundations of Data Science, en een adjunct-professor aan het Tata Institute of Fundamental Research.

Het probleem van de "kleine gegevens" aanpakken

In voor en tegenspoed, veel consumentengegevens staan ​​te koop. Detailhandelaren, bijvoorbeeld, kan creditcardtransacties of locatiegegevens kopen om te zien hoeveel mensen bij een concurrent winkelen. Adverteerders kunnen de gegevens gebruiken om te zien hoe hun advertenties de verkoop beïnvloeden. Maar het verkrijgen van die antwoorden is nog steeds in de eerste plaats afhankelijk van mensen. Geen enkel machine learning-model is in staat geweest om de cijfers adequaat te kraken.

Niet intuïtief, het probleem is eigenlijk een gebrek aan gegevens. Elke financiële inbreng, zoals een kwartaalrapport of wekelijks creditcardtotaal, is maar één nummer. Kwartaalrapporten over twee jaar tellen slechts acht gegevenspunten. Creditcardgegevens voor, zeggen, elke week over dezelfde periode zijn er slechts ongeveer 100 "lawaaierige" datapunten, wat betekent dat ze potentieel oninterpreteerbare informatie bevatten.

"We hebben een 'small data'-probleem, Fleder zegt. "Je krijgt maar een heel klein stukje van wat mensen uitgeven en je moet extrapoleren en afleiden wat er werkelijk aan de hand is uit die fractie van de gegevens."

Voor hun werk, de onderzoekers verkregen creditcardtransacties van consumenten - doorgaans wekelijks en tweewekelijks - en driemaandelijkse rapporten voor 34 retailers van 2015 tot 2018 van een hedgefonds. Over alle bedrijven heen, ze verzamelden in totaal 306 kwartalen aan gegevens.

Het berekenen van de dagelijkse verkoop is vrij eenvoudig van opzet. Het model gaat ervan uit dat de dagelijkse omzet van een bedrijf gelijk blijft, slechts licht afnemend of toenemend van de ene op de andere dag. wiskundig, dat betekent dat verkoopwaarden voor opeenvolgende dagen worden vermenigvuldigd met een constante waarde plus een statistische ruiswaarde - die een deel van de inherente willekeur in de verkoop van een bedrijf weergeeft. De uitverkoop van morgen, bijvoorbeeld, gelijk aan de omzet van vandaag vermenigvuldigd met, zeggen, 0,998 of 1,01, plus het geschatte aantal voor ruis.

Als nauwkeurige modelparameters worden gegeven voor de dagelijkse constante en het geluidsniveau, een standaard inferentie-algoritme kan die vergelijking berekenen om een ​​nauwkeurige prognose van de dagelijkse verkoop uit te voeren. Maar de truc is om die parameters te berekenen.

De cijfers ontwarren

Dat is waar kwartaalrapportages en waarschijnlijkheidstechnieken van pas komen. In een eenvoudige wereld, een kwartaalrapport kan worden gedeeld door, zeggen, 90 dagen om de dagelijkse verkoop te berekenen (wat impliceert dat de verkoop van dag tot dag ongeveer constant is). In werkelijkheid, verkoop varieert van dag tot dag. Ook, het opnemen van alternatieve gegevens om te helpen begrijpen hoe de verkoop over een kwart varieert, maakt de zaken ingewikkelder:behalve dat ze luidruchtig zijn, gekochte creditcardgegevens bestaan ​​altijd uit een onbepaald deel van de totale verkoop. Dat alles maakt het erg moeilijk om te weten hoe de creditcardtotalen precies meewegen in de totale verkoopraming.

"Dat vereist een beetje ontwarren van de cijfers, Fleder zegt. "Als we 1 procent van de wekelijkse verkoop van een bedrijf via creditcardtransacties waarnemen, hoe weten we dat het 1 procent is? En, als de creditcardgegevens ruis bevatten, hoe weet je hoe luidruchtig het is? We hebben geen toegang tot de grondwaarheid voor dagelijkse of wekelijkse verkooptotalen. Maar de kwartaalaggregaten helpen ons om over die totalen te redeneren."

Om dit te doen, de onderzoekers gebruiken een variant van het standaard inferentie-algoritme, genaamd Kalman-filtering of Belief Propagation, die in verschillende technologieën is gebruikt, van spaceshuttles tot GPS voor smartphones. Kalman-filtering maakt gebruik van gegevensmetingen die in de loop van de tijd zijn waargenomen, met ruisonnauwkeurigheden, om een ​​kansverdeling te genereren voor onbekende variabelen over een bepaald tijdsbestek. In het werk van de onderzoekers dat betekent het inschatten van de mogelijke verkoop van een enkele dag.

Om het model te trainen, de techniek verdeelt eerst de kwartaalverkopen in een bepaald aantal gemeten dagen, zeg 90, waardoor de verkoop van dag tot dag kan variëren. Vervolgens, het komt overeen met de waargenomen, luidruchtige creditcardgegevens naar onbekende dagelijkse verkopen. Met behulp van de kwartaalcijfers en enige extrapolatie, het schat de fractie van de totale verkoop die de creditcardgegevens waarschijnlijk vertegenwoordigen. Vervolgens, het berekent de fractie van elke dag van de waargenomen verkoop, geluidsniveau, en een foutschatting voor hoe goed het zijn voorspellingen heeft gedaan.

Het inferentie-algoritme stopt al die waarden in de formule om de dagelijkse verkooptotalen te voorspellen. Vervolgens, het kan die totalen optellen om wekelijks te krijgen, maandelijks, of kwartaalcijfers. Bij alle 34 bedrijven het model versloeg een consensusbenchmark - die schattingen van Wall Street-analisten combineert - op 57,2 procent van de 306 kwartaalvoorspellingen.

Volgende, de onderzoekers ontwerpen het model om een ​​combinatie van creditcardtransacties en andere alternatieve gegevens te analyseren, zoals locatiegegevens. "Dit is niet alles wat we kunnen doen. Dit is slechts een natuurlijk uitgangspunt, ' zegt Fledder.