Wetenschap
Tegoed:CC0 Publiek Domein
In de afgelopen jaren is crowdsourcing, waarbij leden van het publiek worden geworven om te helpen bij het verzamelen van gegevens, enorm nuttig geweest om onderzoekers te voorzien van unieke en rijke datasets, terwijl het publiek ook werd betrokken bij het proces van wetenschappelijke ontdekkingen. In een nieuwe studie heeft een internationaal team van onderzoekers onderzocht hoe crowdsourcingprojecten het meest effectief gebruik kunnen maken van vrijwilligersbijdragen.
Gegevensverzamelingsactiviteiten door middel van crowdsourcing variëren van veldactiviteiten zoals vogels kijken tot online activiteiten zoals beeldclassificatie voor projecten zoals de zeer succesvolle Galaxy Zoo, waarin deelnemers sterrenstelsels classificeren; en Geo-Wiki, waar satellietbeelden worden geïnterpreteerd voor landbedekking, landgebruik en sociaaleconomische indicatoren. Input krijgen van zoveel deelnemers die een reeks afbeeldingen analyseren, roept echter vragen op over hoe nauwkeurig de ingediende reacties eigenlijk zijn. Hoewel er methoden zijn om de nauwkeurigheid van de op deze manier verzamelde gegevens te waarborgen, hebben ze vaak implicaties voor crowdsourcing-activiteiten, zoals het ontwerp van steekproeven en de bijbehorende kosten.
In hun onderzoek dat zojuist is gepubliceerd in het tijdschrift PLoS ONE , hebben onderzoekers van IIASA en internationale collega's de kwestie van nauwkeurigheid onderzocht door te onderzoeken hoeveel beoordelingen van een taak moeten worden voltooid voordat onderzoekers redelijk zeker kunnen zijn van het juiste antwoord.
"Bij veel soorten onderzoek met publieke participatie worden vrijwilligers gevraagd om afbeeldingen te classificeren die voor computers moeilijk te onderscheiden zijn op een geautomatiseerde manier. Wanneer een taak echter door veel mensen moet worden herhaald, worden taken toegewezen aan de mensen die ze uitvoeren efficiënter als je zeker bent van het juiste antwoord. Dit betekent dat er minder tijd wordt verspild aan vrijwilligers of betaalde beoordelaars, en dat wetenschappers of anderen die om de taken vragen meer kunnen halen uit de beperkte middelen die voor hen beschikbaar zijn", legt Carl Salk, een alumnus van de IIASA Young Scientists Summer Program (YSSP) en lange tijd IIASA-medewerker die momenteel verbonden is aan de Swedish University of Agricultural Sciences.
De onderzoekers ontwikkelden een systeem om de kans te schatten dat de meerderheidsreactie op een taak verkeerd is, en stopten toen met het toewijzen van de taak aan nieuwe vrijwilligers toen die kans voldoende laag werd, of de kans om ooit een duidelijk antwoord te krijgen laag werd. Ze demonstreerden dit proces met behulp van een reeks van meer dan 4,5 miljoen unieke classificaties door 2.783 vrijwilligers van meer dan 190.000 afbeeldingen die werden beoordeeld op de aan- of afwezigheid van akkerland. De auteurs wijzen erop dat als hun systeem was geïmplementeerd in de oorspronkelijke gegevensverzamelingscampagne, het de noodzaak van 59,4% van de vrijwilligersbeoordelingen zou hebben geëlimineerd, en dat als de inspanning was besteed aan nieuwe taken, het meer dan het dubbele van de hoeveelheid afbeeldingen die met dezelfde hoeveelheid arbeid moeten worden geclassificeerd. Dit laat zien hoe effectief deze methode kan zijn om efficiënter gebruik te maken van beperkte vrijwilligersbijdragen.
Volgens de onderzoekers kan deze methode worden toegepast op bijna elke situatie waarin een ja of nee (binaire) classificatie vereist is, en het antwoord misschien niet erg voor de hand liggend is. Voorbeelden hiervan zijn het classificeren van andere soorten landgebruik, bijvoorbeeld:"Is er bos op deze foto?"; soorten identificeren door te vragen:"Is er een vogel op deze foto?"; of zelfs het soort "ReCaptcha"-taken dat we doen om websites ervan te overtuigen dat we mensen zijn, zoals:"Is er een stoplicht op deze foto?" Het werk kan ook bijdragen aan het beter beantwoorden van vragen die van belang zijn voor beleidsmakers, zoals hoeveel land in de wereld wordt gebruikt voor het verbouwen van gewassen.
"Terwijl datawetenschappers zich steeds meer richten op machine learning-technieken voor beeldclassificatie, wordt het gebruik van crowdsourcing om beeldbibliotheken voor training te bouwen steeds belangrijker. Deze studie beschrijft hoe het gebruik van de menigte voor dit doel kan worden geoptimaliseerd, waarbij duidelijke richtlijnen worden gegeven wanneer opnieuw moet worden gefocust de inspanningen wanneer ofwel het noodzakelijke betrouwbaarheidsniveau is bereikt of een bepaald beeld te moeilijk te classificeren is", concludeert co-auteur van het onderzoek, Ian McCallum, die de Novel Data Ecosystems for Sustainability Research Group bij IIASA leidt.
Wetenschap © https://nl.scienceaq.com