science >> Wetenschap >  >> Elektronica

SPFCNN-Miner:een nieuwe classifier om klasse-ongebalanceerde gegevens aan te pakken

Het stroomschema als MLF. Krediet:Zhao et al.

Onderzoekers van de Chongqing University in China hebben onlangs een kostengevoelige meta-learning classifier ontwikkeld die kan worden gebruikt wanneer de beschikbare trainingsgegevens hoogdimensionaal of beperkt zijn. Hun classificatie, genaamd SPFCNN-Miner, werd gepresenteerd in een paper gepubliceerd in Elsevier's Toekomstige generatie computersystemen .

Hoewel machine learning-classificaties effectief zijn gebleken in een verscheidenheid aan taken, optimale resultaten te behalen, ze hebben vaak een enorme hoeveelheid trainingsgegevens nodig. Wanneer gegevens hoogdimensionaal zijn, beperkt of onevenwichtig, de meeste classificatiemethoden zijn niet in staat om een ​​bevredigende prestatie te bereiken. In hun studie hebben het team van onderzoekers van de Chongqing University wilde deze gegevensgerelateerde uitdagingen beter begrijpen en een classificator ontwikkelen die ze kan overwinnen.

"We gebruikten Siamese netwerken die geschikt zijn voor een paar keer leren, waarbij een beetje gegevens beschikbaar zijn om hoogdimensionale en beperkte gegevens te leren, en het idee toepassen om 'ondiepe' en 'diepe' benaderingen te combineren om parallelle Siamese netwerken te ontwerpen die eenvoudige of complexe kenmerken beter uit een verscheidenheid aan datasets kunnen halen, "Linchang Zhao, een van de onderzoekers die het onderzoek heeft uitgevoerd, vertelde TechXplore. "De belangrijkste doelstellingen van onze studie waren het oplossen van het probleem met de onevenwichtige gegevensklasse en het verkrijgen van de best mogelijke classificatieresultaten voor dergelijke datasets."

Zhao en zijn collega's ontwikkelden een Siamees parallel volledig verbonden neuraal netwerk (SPFCNN) en pasten het toe op problemen met klasse-ongebalanceerde datadistributies. Om hun kostenongevoelige SPFCNN om te zetten in een kostengevoelige aanpak, ze gebruikten een techniek die 'kostengevoelig leren' wordt genoemd.

Eerst, de onderzoekers verdeelden de meerderheidsgroep in een dataset op basis van in het product getransformeerde kenmerken. Dit zorgde ervoor dat de grootte van elke subgroep in een meerderheidsgroep dicht bij die van de minderheidsgroep lag. In aanvulling, ze structureerden enkele sub-ensembles met behulp van de minderheidsgroep versus elke verkregen partitie.

"Volgende, wij hebben gesolliciteerd SPFCNN-miners voor alle sub-ensembles, elk monsterpunt x J kan worden uitgedrukt door de bijbehorende maatregelen (d j1 , …, NS jn ), elke subclassificatie kan worden omgezet in een maat voor de contrastieve verliesfunctie door de SPFCNN aan te passen, " legde Zhao uit. "Eindelijk, n SPFCNN-miners werden geïntegreerd als een definitieve classificatie volgens de waarden van de contrastieve functie."

De aanpak die Zhao en zijn collega's hebben bedacht, heeft tal van voordelen die het onderscheiden van andere classifiers. Eerst, hun Meta-Learner Function (MLF) kan worden gebruikt om de meerderheidsgroep in een dataset te partitioneren op basis van de in het product getransformeerde kenmerken, wat resulteert in de getransformeerde gegevens die informatie bevatten met betrekking tot afstanden en hoeken tussen items in de minderheids- en meerderheidsgroepen.

"De hoeken tussen de meerderheidsgroep en de minderheidsgroep kunnen worden gezien als de uitdrukking van verwante locaties en vertegenwoordigen vervolgens de verwante richting van de meerderheidsgroep naar de minderheidsgroep, ' legde Zhao uit.

Een bijkomend voordeel van de nieuwe SPFCNN-Miner classifier is dat, net als andere Siamese netwerken, het kan effectief de functies van het hoogste niveau extraheren uit een klein aantal voorbeelden voor een paar keer leren. Bovendien, parallelle Siamese netwerken zijn ontworpen om adaptief eenvoudige of complexe functies te leren van verschillende dimensies van gegevensattributen.

Zhao en zijn collega's evalueerden hun aanpak in een reeks computertests, gebruikmakend van zowel kostenongevoelige als kostengevoelige versies van de SPFCNN-classificatie. Ze ontdekten dat de kostengevoelige benadering beter presteerde dan alle classificaties waarmee ze het vergeleken.

"De experimentele resultaten laten zien dat onze SPFCNN een competitieve benadering is en in staat is om de classificatieprestaties aanzienlijk te verbeteren in vergelijking met de gebenchmarkte benaderingen, " zei Zhao. "We ontdekten dat de prestaties van ons model niet verbeterden naarmate de steekproef groter werd, maar werd sterk beïnvloed door de onbalans. De prestaties die worden verkregen door het kostengevoelige leren in ons model op te nemen, zijn stabieler."

De studie uitgevoerd door Zhao en zijn collega's introduceert een nieuwe methode die door onderzoekers kan worden gebruikt om de prestaties van classifiers te verbeteren wanneer gegevens beperkt of onevenwichtig zijn. In aanvulling, hun bevindingen suggereren dat het balanceren van het aantal positieve en negatieve monsters effectiever kan zijn dan het genereren van een groter aantal kunstmatige monsters. Bijvoorbeeld, hun aanpak kan verschillende kosten voor misclassificatie integreren als het een classificatietaak voltooit, waardoor het robuuster is dan andere technieken die worden gebruikt om problemen met onevenwichtige gegevensgerelateerde problemen aan te pakken.

"In de toekomst, we zijn van plan technieken te gebruiken zoals random walk-matrices, circulerende gewichtsverdeling en Huffman-codering om ons model te comprimeren, en de losjes verbonden technologie of parallelle snoei-kwantiseringsmethode zal worden gebruikt om het voorgestelde SPFCNN-model lichter te maken, ' zei Zhao.

© 2019 Wetenschap X Netwerk