Wetenschap
Krediet:CC0 Publiek Domein
Een internationaal team van onderzoekers heeft het idee getest dat gratis online beoordelingen minder betrouwbaar zijn dan beoordelingen die hen wat kosten. puttend uit de ecologische theorie die bekend staat als 'dure signaleringstheorie'.
De theorie suggereert dat als het achterlaten van een recensie een prijs met zich meebrengt, of het nu geld, tijd of energie is, dit zal resulteren in nauwkeurigere beoordelingen. in ecologie, kostbare signaleringstheorie stelt dat displays die meer 'kosten', zoals uitgebreide pauwenstaarten, of inspannende uitingen van honger van babyvogels - weerspiegelen eerder de realiteit. Een kleurrijke staart duidt op een gezonde pauw, en een kuiken met een volle buik zal de energie niet verspillen om te schreeuwen om meer voedsel.
Maar Princeton-socioloog Dalton Conley en zijn collega's zijn de eersten die deze theorie toepassen op Yelp of Uber en hun beoordelingssystemen. Door een reeks gewogen beoordelingstools te testen in de context van een videogame, ze ontdekten dat lage-inspanningsbeoordelingen minder nauwkeurig waren dan die met een paar extra seconden om te gebruiken. Ze kwamen tot de conclusie dat e-commercesites hun interfaces opnieuw moesten ontwerpen om de beoordelaars van producten of diensten tijdskosten op te leggen.
"Simpel gezegd:het beoordelen van goederen of diensten zo gemakkelijk mogelijk maken, zoals veel e-commercesites proberen te doen, is contraproductief, " zei Conley, Princeton's Henry Putnam University Professor in Sociologie en een faculteitsfiliaal bij het Office of Population Research en het Centre for Health and Wellbeing, die de hoofdauteur is van een recent artikel in de Proceedings of the National Academies of Science. "Idem om iedereen te dwingen een beoordeling te geven. Beoordelingen zijn juister wanneer ze iets kosten om te geven."
Hij vervolgde:"De intuïtie van Uber en andere e-commercesites is waarschijnlijk verkeerd. Er is een reden dat de pauwenveren zo duur zijn om te produceren:hun kosten verzekeren een eerlijk signaal van reproductieve geschiktheid."
Of, zoals co-auteur Lucas Parra het uitdrukte:"Online beoordelingen zijn waardeloos, zijn ze niet? Tenzij ze kosten maken voor de beoordelaars!" Parra is de Harold Shames Professor of Biomedical Engineering aan het City College van New York.
Conley, Parra en hun team van co-auteurs voerden aan dat zelfs als er weinig motivatie is om vals te spelen met online beoordelingen, er geen duidelijke reden is om een beoordeling met één ster achter te laten van een plek die we leuk vonden, of een vijfsterrenrecensie van een stortplaats - er is, op zijn best, weinig direct voordeel voor beoordelaars die nauwkeurige beoordelingen geven, suggereert dat mensen waarschijnlijk informatie van lage kwaliteit zullen verstrekken.
Ze besloten de theorie te testen door 'kosten' op te leggen aan het verstrekken van informatie - en hogere kosten voor extreme beoordelingen - om te zien of ze het aantal oneerlijke, gemiddelde scheve beoordelingen van één ster en vijf sterren.
Dus creëerden ze wat videogames, en rekruteerde spelers van Amazon's Mechanical Turk.
In een typisch spel, spelers manoeuvreerden een auto om munten te verzamelen, wetende dat ze één cent real-life betaling zouden ontvangen voor elke verzamelde digitale munt. Wegen werden gescheiden door meren die alleen met veerboten konden worden overgestoken. De eerste twee veerboottochten werden gebruikt als trainingsset, met vertragingen van 20 seconden en vervolgens 4 seconden, om een gemeenschappelijke basislijn vast te stellen voor de prestatie-evaluaties van veerboten. Daarna, het spel varieerde willekeurig de vertragingen en snelheden van veerdiensten. De snelste veerboten kwamen direct aan en staken binnen 2 seconden het meer over, terwijl de langzaamste veerboten zowel vertraagd aankomen als langzaam varen, in totaal 40 seconden nodig hebben om een meer over te steken.
Aan het einde van elke veerboottocht, spelers moesten de veerdienst beoordelen op een schaal van 0 tot 100 voordat ze verder konden. Die beoordelingen werden de gegevens voor het onderzoeksteam. De in-game beoordelingstool gebruikte een gewogen schuifbalk met digitale "wrijving" voor elk punt dat een speler verwijderde van een eerder bepaalde gemiddelde beoordeling. Met andere woorden, hoe extremer je score, hoe meer seconden je hebt besteed aan het omhoog of omlaag duwen van de balk.
Totale gameplay was beperkt tot 15 minuten, dus spelers waren gemotiveerd om hun ranglijst zo snel mogelijk in te dienen, zodat ze hun geldelijke beloningen konden innen. Spelers reden gemiddeld 17 veerboten per wedstrijd, waardoor de onderzoekers correlaties kunnen meten tussen hun subjectieve beoordelingen en de objectieve service van de veerboten (gemeten als totale tijd om de veerboot te nemen), zowel binnen als tussen onderwerpen.
Ze ontdekten dat hun gewogen schuifbalk leidde tot betrouwbaardere schattingen van de kwaliteit van het publiek dan een ongewogen klikbalk, waar alle scores van 0 tot 100 konden worden gegeven door een directe klik op het scherm - waar alle beoordelingen even 'goedkoop' waren.
Hun resultaten hebben gevolgen voor de alomtegenwoordige verzoeken om beoordelingen binnen e-commerce, en hun aanpak kan worden veralgemeend en getest in een verscheidenheid aan grootschalige online communicatiesystemen, aldus de onderzoekers.
Het team was niet van plan om beoordelingen te testen, zei Conley. Ze waren oorspronkelijk geïnteresseerd in online leren, "maar tijdens experimenten realiseerden we ons dat de beoordelingsgegevens die we kregen... niet erg goed waren, dus we wilden dat probleem verbeteren."
Ze waren verrast toen ze ontdekten dat het verlagen van de kosten van ratings eigenlijk averechts werkte. De klassieke economische theorie suggereert dat het minimaliseren van de kosten de beste resultaten zou opleveren, maar hun gegevens laten het tegenovergestelde zien.
Kortom, Uber moet zijn beoordelingstool vertragen, zei Conley. "Het beoordelingsapparaat omzetten van een simpele klik naar een schuifregelaar, waar het geven van zeer hoge of lage scores moeilijk wordt omdat de schuifregelaar langzamer gaat naarmate de gebruiker verder naar buiten komt in beide richtingen, levert betere scoreverdelingen op. Alleen zeer gemotiveerde beoordelaars zullen extreme scores geven."
Wetenschap © https://nl.scienceaq.com