science >> Wetenschap >  >> Elektronica

Onderzoek naar machine learning kan veel industrieën helpen

Krediet:CC0 Publiek Domein

spam e-mails, bankfraude, suikerziekte, werknemers die hun baan opzeggen. Wat hebben deze onderwerpen gemeen? Het antwoord is te vinden in onderzoek naar machine learning aan de Binghamton University.

Dana Bani Hani, een doctoraatsstudent die industriële en systeemtechniek studeert, heeft de afgelopen jaren machines geleerd hoe gegevenssets in elke branche moeten worden gelezen. Het systeem dat ze codeerde, een Recursive General Regression Neural Network Oracle (R-GRNN Oracle) genoemd, neemt gegevensinvoer en maakt voorspellingsuitvoer.

Regressiemodellen zijn niet nieuw in datawetenschap en analyse, maar wat Bani-Hani heeft gemaakt, gaat verder dan de basis. Een typisch systeem gebruikt algoritmen, classificaties genoemd, die door een dataset van veel verschillende variabelen lopen om een ​​voorspelling te maken. Orakels worden gemaakt om meerdere sets van deze classificaties uit te voeren om te zien welk algoritme de meest nauwkeurige voorspelling maakt.

Bijvoorbeeld, een classifier kan naar talloze e-mails kijken en rekening houden met bepaald woordgebruik, aantal woorden en verschillende andere variabelen om te bepalen of de e-mail spam is. Een orakel kijkt naar de verschillende classificatie-outputs en bepaalt welke het meest nauwkeurig de spam-e-mails voorspelde.

Wat de R-GRNN Oracle onderscheidt van andere orakels, is zijn vermogen om classificatie-outputs te nemen en deze te rangschikken op basis van hun nauwkeurigheid. Op basis van de rangschikking classifiers krijgen gewichten en worden gecombineerd om een ​​voorspelling te produceren die superieur is aan elke classifier op zich.

Zie dit proces als een orkest. Elk instrument heeft zijn eigen sterke punten, net als verschillende classificaties, dus het is handig om ze allemaal op te nemen. De conducteur, zoals het R-GRNN Orakel, stuurt de verschillende instrumenten om luid of zachter te spelen op basis van hoe het instrument de uiteindelijke symfonie laat klinken.

Op dit punt, het systeem zou een General Regression Neural Network (GRNN) worden genoemd, die eerder is gemaakt aan de Binghamton University. De echte crux van Bani-Hani's werk ligt in de eerste letter, R, staat voor recursie.

De R-GRNN Oracle neemt de originele GRNN-uitvoer, en gebruikt dat hele systeem als invoer voor een andere GRNN-voorspelling. Dit wordt gecombineerd met de meest succesvolle van de originele classifiers.

Dus, terug naar het orkest:de originele symfonie is opgenomen, en later opnieuw afgespeeld. Deze keer, samen met de opname, een paar instrumenten spelen weer om de belangrijke klanken van het orkest verder te verfijnen.

"Vanwege de manier waarop [de GRNN] werkt, Ik was in staat om het recursieve model te maken, " zegt Bani-Hani. "Het concept van recursie wordt niet veel gebruikt in machine learning, dus besloot ik een orakel in een orakel te plaatsen."

Mohammed Khasawneh, hoogleraar en departementsvoorzitter in systeemwetenschappen en industriële techniek, begeleidde het onderzoek van Bani-Hani. Hij zegt dat systemen zoals de GRNN en R-GRNN onderbenut zijn en van vitaal belang zijn bij ernstige levensgebeurtenissen.

"Het traditionele GRNN Oracle heeft beperkte aandacht gekregen in de literatuur omdat slechts zeer weinig onderzoekers werk aan het algoritme hebben gepubliceerd, ", zegt Khasawneh. "Maar veel echte problemen die machine learning-modellen toepassen om het classificeren van onbekende waarnemingen te automatiseren, vereisen nauwkeurige voorspellingen. Taken zoals het diagnosticeren van ziekten brengen precisie met zich mee om ernstige problemen te voorkomen die mogelijk kunnen leiden tot problemen zoals rechtszaken of zelfs sterfgevallen."

Bani-Hani zegt dat het R-GRNN Oracle nauwkeurigere voorspellingen produceert dan een enkele classificator alleen, evenals een GRNN op zichzelf. Het R-GRNN Oracle nam duizenden e-mailvoorbeelden op, geprogrammeerd om 57 variabelen te factoriseren, en produceerde vervolgens een spamvoorspelling die superieur was aan alle andere geteste classificaties.

Bani-Hani gebruikte de R-GRNN ook om fraude met creditcardaanvragen te voorspellen, diabetesdiagnose en of een werknemer zal stoppen op basis van eerdere werkervaringen. In ieder geval, de R-GRNN kwam naar voren als de meest nauwkeurige voorspeller.

Ze is van plan haar model te focussen op specifieke gebieden, zoals zaken of financiën, evenals het verpakken van zowel het GRNN Oracle als het R-GRNN Oracle, zodat bedrijven niet de hele code helemaal opnieuw hoeven te maken.

Bani-Hani's reis naar machine learning-onderzoek begon bijna 6, 000 mijl verwijderd van Binghamton in Jordanië. Na het behalen van haar bachelor bouwkunde, ze hoorde over Binghamton University via de Watson School-faculteit en academische leiders, en van ondersteunende suggesties van haar vader. Aanvankelijk volgde ze een master in industrieel ingenieur, maar al snel vond ze een nieuwe passie:datamining en machine learning.

"Het behalen van een doctoraat is de laatste 15 jaar een droom van mij geweest, " zegt Bani-Hani. "Ik wijt dit vooral aan het hebben van een gezin met een hogere opleiding. Ik ben mijn professoren hier aan de Binghamton University dankbaar dat ze me kennis hebben laten maken met de onderwerpen die deel uitmaken van mijn onderzoek."