science >> Wetenschap >  >> anders

Op onderwerp aangepaste zichtbaarheidsstatistiek voor wetenschappelijke artikelen

Een echt wetenschappelijk artikel (uit de KDD Cup-dataset) met bekende citaten werd gebruikt om aan te tonen hoe het algoritme aanbevelingen kon genereren voor onderzoekers die op zoek waren naar informatie in een gerelateerd veld. Afbeelding toont de top 15 citaties die door de statistiek worden aanbevolen. Van deze 15 voorspelde citaties, vijf van hen (gemarkeerd met asterisken) waren daadwerkelijke citaten door het artikel. In vergelijking, andere methoden slaagden er niet in om de daadwerkelijke citaties te voorspellen. De gekleurde segmenten in de “onderwerpverhoudingen” geven de kans aan dat een artikel bij een bepaald onderwerp hoort. Krediet:Annalen van toegepaste statistiek

Een NUS-statisticus heeft een statistiek ontwikkeld die automatisch rekening houdt met citatievariaties in verschillende disciplines voor het meten van de onderzoekswaarde van wetenschappelijke artikelen.

De onderzoeksverdienste (impact) van wetenschappelijke artikelen wordt vaak gebruikt als een van de parameters om de kwaliteit van onderzoeksresultaten te beoordelen. Dit wordt meestal verkregen uit de citaten van onderzoekswerk dat al in het tijdschrift is gepubliceerd. Echter, verschillende academische disciplines hebben verschillende onderzoeksgedragingen en citatiepraktijken. Bijvoorbeeld, artikelen in bepaalde disciplines (bijv. wiskunde) hebben over het algemeen lage citaties, terwijl andere vakgebieden (bijv. moleculaire biologie) in vergelijking gemiddeld meer citaties hebben. Vandaar, een vergelijking van de onderzoekskwaliteit tussen verschillende disciplines op basis van ruwe citatietellingen zou de onderzoekswaarde niet nauwkeurig weergeven.

Prof. Linda TAN van de afdeling Statistiek en Toegepaste Kansrekening, NUS heeft een statistiek op artikelniveau ontwikkeld, genaamd "op onderwerp aangepaste zichtbaarheidsstatistiek", die in staat is om automatisch rekening te houden met de variatie in citatie-activiteiten tussen verschillende onderzoeksgebieden. Het berekent dit zonder bestaande veldclassificaties te gebruiken die aan het individuele artikel zijn getagd, maar door gebruik te maken van een complex netwerk met attributen die bij het geselecteerde artikel horen. Elk artikel hoeft niet tot een enkel veld te behoren, maar kan in verschillende mate tot meerdere velden behoren. Dit kan een betere graadmeter bieden voor het vergelijken van afzonderlijke wetenschappelijke publicaties over verschillende vakgebieden. Het onderzoeksteam heeft ook een efficiënt computationeel algoritme ontwikkeld dat deze statistiek gebruikt om academische onderzoekers te helpen met artikelaanbevelingen.

Prof Tan zei, "Wanneer onze methode wordt toegepast op de KDD Cup 2003 (kennisontdekking en dataminingcompetitie) benchmarking-dataset met ongeveer 30, 000 hoge-energiefysica-papers, het toonde betere prestaties voor artikelaanbevelingen door nauwkeuriger te zijn in het voorspellen van de daadwerkelijke citaten uit testartikelen, in vergelijking met andere beschikbare modellen."