science >> Wetenschap >  >> anders

Statistieken, informaticastudenten werken samen aan real-world dataproblemen via mini-denktanks

Wat is het verschil tussen statistiek en datawetenschap - en, misschien nog belangrijker, waarom hebben we twee velden met wat dezelfde focus lijkt te zijn? De beste manier om de opkomst van data science als een aparte discipline te begrijpen, legt Herman "Gene" Ray uit, directeur van het Centrum voor Statistiek en Analytisch Onderzoek aan de Kennesaw State University, is om data science te zien als de versmelting van informatica en statistiek. "De meeste traditionele statistiekprogramma's leren je veel theorie en hoe je problemen met de hand kunt oplossen, " zegt hij. "Computertoepassingen zijn iets van een bijzaak. Maar bedrijven gaan niet 100 miljoen records met de hand analyseren; ze hebben te maken met enorme gemakssteekproeven. En dat is waar data science om de hoek komt kijken."

En dat is waar de academische machtsstrijd begint:statistici zeggen dat datawetenschappers de statistische of wiskundige basis missen om het verzamelen en analyseren van gegevens te begrijpen, en datawetenschappers rollen hun ogen naar statistici vanwege hun gebrek aan programmeerkennis. Dit, zegt Ray, was het grootste obstakel waarmee ze werden geconfronteerd bij het creëren van een van de eerste Amerikaanse Ph.D. programma's in analytics en data science:How doen combineer je statistiek en informatica? "Iedereen denkt dat ze het zonder de ander kunnen, "zegt hij. "Maar de realiteit is dat de meeste statistici geen erg goede programmeurs zijn, en de meeste computerwetenschappers begrijpen sommige nuances van statistiek niet echt. Ons doel is om die kloof te overbruggen."

Hun oplossing, gedeeltelijk, maakte gebruik van het toenemende bewustzijn bij bedrijven in de regio van Atlanta van het belang van data. Het Analytics and Data Science Institute heeft negen gesponsorde onderzoekslaboratoria opgericht, elk gericht op gegevensproblemen waarmee een bedrijf of openbare dienst of non-profitorganisatie wordt geconfronteerd, en elk met één tot vier Ph.D. studenten onder leiding van een docent. "Het zijn kleine denktanks die echte problemen onderzoeken, "zegt Ray. "En door dat te doen, studenten krijgen inzicht in het probleem vanuit de informatica en het statistisch perspectief." Een meer traditioneel ingestelde statistiekstudent kan door een collega worden aangemoedigd om neurale netwerken te verkennen, terwijl een meer traditioneel ingestelde computerwetenschapsstudent zou kunnen worden aangemoedigd om te zien waarom ze representatieve steekproeven moeten gebruiken in plaats van gemakssteekproeven.

Een recent project betrof de samenwerking met de brandweer van Cobb County, een buitenwijk van Atlanta, die niet voldeed aan de nationale maatstaven voor brandnormen. "We namen al hun gegevens voor brand- en ambulance-evenementen - het tijdstip van het eerste telefoontje tot het moment dat de ambulance de brandweerkazerne verliet tot de tijd die nodig was om bij een evenement te komen. We hebben gekeken naar de routes en verkeerspatronen, en vervolgens geoptimaliseerde responstijden met behulp van graft-theorie en Google Maps." Routes werden gewijzigd, brandzones opnieuw toegewezen, en de responstijden werden verkort. "De brandweercommandant van Cobb County is zeer datavaardig, " zegt Ray, "Dus hij implementeert incrementele wijzigingen en ziet vervolgens hoe de gegevens worden bijgewerkt."

De onderzoekslaboratoria voegen ook een andere dimensie toe - en een steeds belangrijker - aan de studentenervaring:hoe praat je met mensen die geen statistici of datawetenschappers zijn.

"Toen ik werd opgeleid, de verwachting was dat ik zou samenwerken met andere statistici en zou presenteren op academische conferenties, "zegt Ray. "Dus, we spraken allemaal dezelfde taal. Vandaag, een datawetenschapper zou kunnen praten met een leidinggevende, of klant, of beleidsmaker, die heel weinig statistische achtergrond heeft. Ze moeten dit heel snel kunnen lezen, en zorg dat de juiste boodschap nog op het juiste niveau wordt gecommuniceerd. Dat is een van de mooie dingen van deze laboratoria:ze dwingen iedereen om te leren spreken op een manier die het laboratorium tot een succes maakt."