Wetenschap
Waheeda Saib. Krediet:IBM
Kankerregisters bevatten vitale datasets, goed versleuteld bewaard, met demografische informatie, medische geschiedenis, diagnostiek en therapie. Oncologen en gezondheidsfunctionarissen hebben toegang tot de gegevens om de gediagnosticeerde kankergevallen en incidentiecijfers op nationaal niveau te begrijpen. Het uiteindelijke doel is om deze gegevens te gebruiken om de planning en interventieprogramma's voor de volksgezondheid te informeren. Hoewel realtime updates niet praktisch zijn, meerjarige vertragingen maken het een uitdaging voor ambtenaren om de impact van kanker in het land te begrijpen en dienovereenkomstig middelen toe te wijzen.
Ongestructureerde pathologierapporten bevatten tumorspecifieke gegevens en zijn de belangrijkste bron van informatie die door kankerregistraties wordt verzameld. Menselijke experts labelen de pathologierapporten met behulp van International Classification of Disease for Oncology (ICD-O) codes die 42 verschillende kankertypes omvatten. De combinatie van handmatige processen en de omvang van de jaarlijks ontvangen rapporten leidt tot een vertraging van vier jaar voor het land. In vergelijking, er is bijna twee jaar vertraging in de Verenigde Staten.
in 2016, toen we ons nieuwe IBM Research-lab in Johannesburg inhuldigden, we zijn deze uitdaging aangegaan en rapporteren deze maand onze eerste veelbelovende resultaten op Health Day op de KDD Data Science Conference in Londen.
Ons doel vanaf het begin was om deep learning toe te passen om de etikettering van kankerpathologierapporten te automatiseren om het rapportageproces te versnellen. Werken met de National Cancer Registry in Zuid-Afrika, wij gebruikten er 2, 201 geanonimiseerd, vrije tekst pathologierapporten en ik ben er trots op te kunnen melden dat onze paper een nauwkeurigheid van 74 procent vertoont - een verbetering ten opzichte van de huidige benchmarkmodellen. We denken dat we met meer gegevens een nauwkeurigheid van 95 procent kunnen bereiken.
We gebruikten hiërarchische classificatie met convolutionele neurale netwerken, hoewel dit niet onze eerste keuze was. We zijn in eerste instantie begonnen met het verkennen van multiclass en binaire convolutionele neurale netwerkmodellen, maar de resultaten waren niet veelbelovend en ik stopte bijna gefrustreerd. Eventueel, met het advies en de steun van mijn collega's, we hebben de tekst opgeschoond, verfijnde het feature-engineeringproces en verbeterde het tot 60 procent. Dit resultaat was een verbetering, maar we wisten dat we 90-95 procent nodig hadden om het betrouwbaar genoeg te maken voor de echte wereld.
Na meer onderzoek en verkenning, we dachten aan het verminderen van de complexiteit van het multiklassenprobleem, wat ons ertoe bracht een ultramoderne hiërarchische classificatiemethode voor diep leren te creëren op basis van de hiërarchische structuur van het oncologische ICD-O-coderingssysteem. Dus, we gebruikten een gecombineerde aanpak om klassenhiërarchie te identificeren en deze te valideren met behulp van expertkennis om betere prestaties te bereiken dan een plat multiklassemodel voor classificatie van vrije-tekstpathologierapporten.
Ons werk zit er natuurlijk nog niet op; we moeten een nauwkeurigheid van meer dan 95 procent bereiken, en we denken dat dit mogelijk is met meer gegevens, die zal worden verstrekt door onze partners bij de National Cancer Registry. Zodra we dit hebben, we denken dat Zuid-Afrika de beste ter wereld kan zijn op het gebied van kankerrapportage, wat belangrijk is, vooral omdat is gemeld dat mijn land tegen 2030 een toename van 78 procent van het aantal kankergevallen zal zien.
Dit verhaal is opnieuw gepubliceerd met dank aan IBM Research. Lees hier het originele verhaal.
Wetenschap © https://nl.scienceaq.com