science >> Wetenschap >  >> anders

Wil je March Madness voorspellen? Nieuwe methode identificeert belangrijke statistieken, presteert beter dan anderen in nauwkeurigheid

Onderzoekers van de Universiteit van Illinois hebben een methode ontwikkeld die gebruikmaakt van causale gevolgtrekkingen voor het voorspellen van verstoringen in het NCAA-basketbaltoernooi voor heren die vele andere technieken overtreft. Naast een verbeterde nauwkeurigheid, de methode valt op omdat deze gebaseerd is op openbaar beschikbare gegevens, waardoor het reproduceerbaar en toegankelijker wordt voor anderen om te gebruiken.

De paper die de methode rapporteert, is gepubliceerd in de American Statistical Association (ASA) Tijdschrift voor kwantitatieve analyse in sport (JQAS) door Sheldon H. Jacobson (Universiteit van Illinois in Urbana-Champaign), Jason J. Sauppe (University of Wisconsin La Crosse) en Shouvik Dutta (voormalige student aan de University of Illinois). Kortom, de techniek identificeert potentiële verstoringen met behulp van slechts een klein aantal openbaar beschikbare statistieken door match-ups in het lopende jaar te identificeren die kenmerken vertonen die vergelijkbaar zijn met die van historische ronde-van-64 verstoringen.

Met behulp van beslisbomen, machinaal leren, en causale gevolgtrekking, Jacobson en zijn medewerkers analyseerden 115 openbaar beschikbare statistieken om de 15 belangrijkste te detecteren voor het identificeren van verstoringen in de eerste ronde matchups tussen de teams van 2 en 15, 3 en 14, en 4 en 13. Onder de meest invloedrijke van de 15 waren de effectieve balbezitratio - het aantal bezittingen en aanvallende rebounds minus het aantal omzet gedeeld door het aantal bezittingen - het aantal gespeelde wedstrijden in het reguliere seizoen en een maatstaf van scoringskansen per wedstrijd.

De verschillen in die 15 statistieken tussen de twee teams in elke historische verstoring worden vervolgens gebruikt om een ​​profiel op te bouwen van eerdere verstoringen. Eindelijk, de verstoorde profielen kunnen worden vergeleken met ronde-van-64-spellen in het lopende jaar om match-ups te vinden die het meest op historische verstoringen lijken.

Jacobson en co-auteurs pasten hun benadering toe op het NCAA-toernooi in elk van de 13 jaar van 2003 tot 2015. Van de 26 geselecteerde games, 10 (38,4%) waren echte verstoringen, dat is meer dan twee keer zoveel als het verwachte aantal juiste selecties bij gebruik van een gewogen willekeurige selectiemethode.
Het identificeren van oorzakelijke factoren in het NCAA-toernooi is om vele redenen een uitdaging, een daarvan is dat gerandomiseerde gecontroleerde onderzoeken - een gevestigde methode die bij uitstek geschikt is voor het identificeren van causaliteit - geen optie is. "Door het probleem te benaderen als een causaal gevolgtrekkingsprobleem met behulp van observatiegegevens, " zei Jacobson, "we waren in staat om de voorspelling van verstoringen te verbeteren ten opzichte van pure willekeurige kans."

Nagesynchroniseerde subsetselectie voor balansoptimalisatie (of BOSS), het raamwerk kan worden toegepast op een breed scala aan gegevens in de sociale wetenschappen en de geneeskunde. Het eerste onderzoek voor het BOSS-idee werd mede ondersteund door de National Science Foundation. "De covariate balansbenadering van de auteurs is nieuw in de context van een sporttoepassing, " zei Mark Glickman (Harvard University), voormalig hoofdredacteur van JQAS die dit manuscript heeft behandeld. "Het is verfrissend om te zien dat causale gevolgtrekkingen een prominente rol spelen bij het beoordelen van factoren die van invloed zijn op spelverstoringen."

Jacobson's verwachte tegenslagen voor het toernooi van dit jaar worden na selectiezondag gepubliceerd op http://bracketodds.cs.illinois.edu, een STEM-leerlaboratorium gericht op de statistieken van March Madness.

"March Madness is een geweldige kans voor alle mensen, Jong en oud, om te genieten van een nationaal sportevenement en tegelijkertijd waardering te krijgen voor hoe statistiek en datawetenschap licht werpen op het toernooi. Simpel gezegd, ons onderzoeksprogramma over data-analyse helpt de waanzin te begrijpen, ’ zei Jacobson.

Jacobson is jurylid bij de tweede jaarlijkse Statsketball-wedstrijd, gepresenteerd door Dit zijn statistieken (http://thisisstatistics.org), de campagne van de ASA om studenten leerkrachten en ouders zich bewust zijn van de vele carrières die mogelijk worden gemaakt door statistisch denken.