science >> Wetenschap >  >> anders

Machine learning verbetert zoekopdrachten in 's werelds grootste database met biomedische literatuur

Resultaten gesorteerd op relevantie, in plaats van datum, een verbeterde ervaring bieden voor gebruikers van PubMed, 's werelds grootste database met biomedische literatuur, volgens een studie die op 28 augustus in het open access-tijdschrift wordt gepubliceerd PLOS Biologie door Zhiyong Lu en collega's van de National Library of Medicine (NLM)/National Center for Biotechnology Information (NCBI), die PubMed ontwikkelt en onderhoudt.

PubMed bevat meer dan 28 miljoen artikelsamenvattingen uit de biomedische literatuur, met gemiddeld twee extra per minuut. Het is een onmisbare hulpbron, wereldwijd, die dagelijks door miljoenen gebruikers worden bezocht. Vanaf het begin, zoekresultaten werden alleen in omgekeerde chronologische volgorde geretourneerd, meest recente eerst, een rangschikkingssysteem dat de nadruk legde op recentheid in plaats van relevantie voor de zoekopdracht. In 2013, er werd een rangschikkingssysteem voor relevantie geïntroduceerd, maar het was afhankelijk van kunstmatige wegingsfactoren en vereiste voortdurende handmatige aanpassing.

In juni 2017, NLM/NCBI-medewerkers hebben een algoritme voor machine learning geïntroduceerd dat is gebaseerd op tientallen relevantiesignalen, waaronder reacties van gebruikers, met name:de frequentie van doorklikken naar de artikelen die voor een bepaalde zoekopdracht zijn geretourneerd, om de relevantiepositie te verbeteren. Dit classificatiesysteem, beste match genoemd, wordt aangeboden als alternatief voor chronologische volgorde. Het team ontdekte dat de doorklikratio met 20% toenam op de geretourneerde resultaten door Best Match in vergelijking met dezelfde resultaten die chronologisch werden gepresenteerd. Het totale gebruik van sortering op relevantie is gestegen van 7,5% van alle zoekopdrachten vóór de introductie van Best Match tot 12% in april 2018. Aangezien machine learning-systemen afhankelijk zijn van gebruikersinput om te verbeteren, de toename van het gebruik zou het systeem in staat moeten stellen zichzelf te "leren" om in de loop van de tijd waardevoller te worden voor zijn gebruikers.

"Algemeen, het nieuwe Best-Match-algoritme laat een significante verbetering zien in het vinden van relevante informatie ten opzichte van de standaard tijdsvolgorde in PubMed, " verklaarden de auteurs. "We moedigen PubMed-gebruikers aan om deze nieuwe relevantie-zoekopdracht uit te proberen en input te leveren om ons te helpen de rangschikkingsmethode te blijven verbeteren."