science >> Wetenschap >  >> anders

Nieuwe methode om symmetrieën in gegevens te identificeren met behulp van Bayesiaanse statistiek

Voorbeelden van gekleurde grafieken die symmetrieën van vierdimensionale gegevens aangeven:hoekpunten en randen van dezelfde kleur en vorm in een grafiek worden aan elkaar toegewezen door een symmetriepermutatie die de structuur van gegevens behoudt. Krediet:Hideyuki Ishi, Osaka Metropolitan University

Een internationaal onderzoeksteam onder leiding van wetenschappers van de Osaka Metropolitan University heeft een methode ontwikkeld om symmetrieën in multidimensionale gegevens te identificeren met behulp van Bayesiaanse statistische technieken.

Deze statistische benadering vereist complexe berekeningen van integralen, die vaak alleen als benaderingen worden beschouwd. In hun nieuwe studie heeft het onderzoeksteam met succes nieuwe exacte integraalformules afgeleid. Hun bevindingen dragen bij aan het verbeteren van de nauwkeurigheid van methoden om gegevenssymmetrieën te identificeren, waardoor hun toepassingen mogelijk worden uitgebreid naar bredere interessegebieden, zoals genetische analyse.

Symmetrieën in de natuur maken dingen mooi; symmetrieën in data maken dataverwerking efficiënt. De complexiteit van het identificeren van dergelijke patronen in gegevens heeft onderzoekers echter altijd bedrogen. Wetenschappers van de Osaka Metropolitan University en hun collega's hebben een grote stap gezet in het detecteren van symmetrieën in multidimensionale gegevens door gebruik te maken van Bayesiaanse statistieken. Hun bevindingen zijn gepubliceerd in The Annals of Statistics .

Bayesiaanse statistiek staat de afgelopen jaren in de schijnwerpers vanwege verbeteringen in computerprestaties en de mogelijke toepassingen ervan in kunstmatige intelligentie. Bayesiaanse statistiek is een statistische benadering die, zelfs wanneer er onvoldoende gegevens zijn, de waarschijnlijkheid van een gebeurtenis afleidt door eerst een eerdere waarschijnlijkheid in te stellen en vervolgens, wanneer nieuwe informatie wordt verkregen, een latere waarschijnlijkheid te berekenen - een update van de eerdere waarschijnlijkheid - dat de gebeurtenis zal plaatsvinden. De berekening van posterieure kansen vereist complexe berekeningen van integralen en wordt daarom vaak slechts als een benadering beschouwd.

Het internationale team, waaronder professor Hideyuki Ishi van de Osaka Metropolitan University, professor Piotr Graczyk van de University of Angers, professor Bartosz Kołodziejek van de Technische Universiteit van Warschau en wijlen professor Hélène Massam van de York University (Toronto) is erin geslaagd nieuwe exacte integrale formules af te leiden , en bij het ontwikkelen van een methode om symmetrieën in multidimensionale gegevens te zoeken met behulp van Bayesiaanse statistische technieken.

Wanneer de hoeveelheid te verwerken gegevens toeneemt, moet het optimale patroon worden gekozen uit een groot aantal patronen, waardoor het moeilijk wordt om het probleem precies op te lossen. Om deze uitdaging aan te gaan, heeft het team ook een efficiënt algoritme ontwikkeld om zelfs in dergelijke gevallen een benaderende oplossing te verkrijgen.

In de woorden van professor Ishi:"Symmetrieën in gegevens zijn alomtegenwoordig in een grote verscheidenheid aan modellen. Zodra symmetrieën zijn geïdentificeerd, kan het aantal parameters dat nodig is om de structuur van de gegevens weer te geven, en het aantal monsters dat nodig is om de parameters te bepalen, In de toekomst zullen de resultaten van dit onderzoek naar verwachting bijdragen aan genetische analyse, waarbij chromosomen worden ontdekt die op verschillende locaties dezelfde functie hebben." + Verder verkennen

Bayesiaanse modelselectie vertoont extreem gepolariseerd gedrag wanneer de modellen fout zijn