Wetenschap
Krediet:CC0 Publiek Domein
Er is een enorme hoeveelheid digitale gegevens verzameld, opgeslagen en gedeeld in de afgelopen jaren van bronnen zoals sociale media, geolocatiesystemen en luchtbeelden van drones en satellieten, waardoor onderzoekers veel nieuwe manieren hebben om informatie te bestuderen en onze wereld te ontcijferen. In Zwitserland, het Federaal Bureau voor de Statistiek (FSO) is geïnteresseerd in de big data-revolutie en de mogelijkheden die deze biedt om voorspellende statistieken te genereren ten behoeve van de samenleving.
Conventionele methoden zoals tellingen en enquêtes blijven de maatstaf voor het genereren van sociaal-economische indicatoren bij de gemeentelijke, kantonaal en nationaal niveau. Maar deze methoden kunnen nu worden aangevuld met secundaire, meestal reeds bestaande gegevens, uit bronnen zoals gsm-abonnementen en creditcards. Volgens de data-innovatiestrategie 2017 van de FSO, "Het doel van data-innovatie is het verbeteren van de kwaliteit, reikwijdte en kostenefficiëntie van statistische producten en om de responslast voor huishoudens en bedrijven te verminderen."
Geanonimiseerde gegevens
Tegen deze achtergrond, een team van wetenschappers van EPFL's Laboratory on Human-Environment Relations in Urban Systems (HERUS) voerde een baanbrekend onderzoek uit naar nieuwe toepassingen van de gegevens die door verzekeringsmaatschappijen worden bewaard. Het toonaangevende partnerbedrijf van het lab, La Mobilière, verstrekte geanonimiseerde gegevens van honderdduizenden polishouders. Deze gegevens omvatten factoren zoals leeftijd, woonplaats postcode, auto- en eigenwoningbezit, en arbeidssituatie.
"We wilden kijken of we deze gegevens konden gebruiken om specifieke sociaal-economische indicatoren te voorspellen, die ons een beter beeld zouden kunnen geven van de kwaliteit van de stedelijke gebieden in Zwitserland. Een groot voordeel van de gegevens die verzekeraars hebben - op voorwaarde dat ze bereid zijn om het te delen - is dat ze goedkoop in gebruik zijn, aangezien ze al bestaan, en jaarlijkse onderzoeken kunnen zonder extra kosten worden uitgevoerd, " zegt Emanuele Massaro, een hoofdauteur van de studie, die werd gepubliceerd in PLOS EEN op 3 maart.
Met behulp van dataminingtechnieken, het onderzoeksteam haalde de relevante informatie eruit en aggregeerde deze om de 170 meest bevolkte Zwitserse steden te bestrijken. In alles, ze kregen bijna 600, 000 profielen, elk geïdentificeerd door een unieke code. "De dataset van La Mobilière is zeer compleet; het bevat een breed scala aan informatie waarmee we rekening konden houden met meer dan 30 variabelen, die we voornamelijk gebruikten om die variabelen te selecteren die het beste passen bij elke sociaaleconomische indicator, " zegt Lorenzo Donadio, een masterstudent in milieuwetenschappen en techniek aan EPFL en de eerste auteur van de studie.
Een ruimtelijk regressiemodel
De wetenschappers ontwikkelden een ruimtelijk regressiemodel om twaalf variabelen in zes categorieën nauwkeurig te voorspellen:populatie, vervoer, werk, ruimte en regio, huisvesting, en de economie. "Natuurlijk, onze voorspellingen kunnen officiële tellingen niet vervangen, maar ze kunnen dienen als jaarlijkse wegwijzers. We wilden ook laten zien dat de datasets van verzekeraars veel maatschappelijk relevante informatie bevatten – naast wat ze gebruiken voor marketing en marktonderzoek – en dat verzekeraars zouden moeten overwegen om nauwer samen te werken met onderzoekers, ' zegt Massaro.
Het statistische model van het team is uitsluitend ontwikkeld voor onderzoeksdoeleinden en heeft als zodanig geen praktische toepassing. Het kan worden gebruikt om beleidsmakers te begeleiden, maar regelmatige volkstellingsgegevens zijn nog steeds nodig. De gegevens van La Mobilière missen bepaalde informatie, zoals voor jongeren onder de 18 jaar, maar zijn niettemin representatief voor een groot deel van de bevolking. "Ons model kan worden gebruikt door beleidsmakers van steden en statistische bureaus van de overheid, die dit soort informatie zouden kunnen opnemen in hun moderniseringsinspanningen. De datasets van verzekeraars zijn zeer gedetailleerd omdat ze zeer specifieke informatie over hun klanten bevatten, ' zegt Massaro.
Wetenschap © https://nl.scienceaq.com