science >> Wetenschap >  >> Fysica

Bayesiaanse modelselectie vertoont extreem gepolariseerd gedrag wanneer de modellen fout zijn

Classificatie van Bayesiaanse modelselectieproblemen waarbij twee even goede of even foute modellen betrokken zijn. Krediet:ZHU Tianqi

Wetenschappers van University College London (UCL) en de Academy of Mathematics and Systems Science, Chinese Academie van Wetenschappen (CAS, AMSS), hebben vooruitgang gemeld bij het begrijpen van problemen die verband houden met de selectie van Bayesiaanse modellen. Het onderzoek suggereert dat de Bayesiaanse methode de neiging heeft om zeer hoge posterieure kansen te produceren voor geschatte evolutionaire bomen, zelfs als de bomen duidelijk verkeerd zijn, en biedt een mogelijke verklaring voor dit fenomeen.

Modelvergelijking wordt veel gebruikt in verschillende takken van wetenschap waarin wetenschappelijke hypothesen worden geformuleerd als statistische modellen en worden getest met behulp van geobserveerde gegevens. Echter, modelvergelijking is een heikel punt in zowel de klassieke statistiek als de Bayesiaanse statistiek.

In de klassieke statistiek, twee geneste modellen worden vergeleken. Het raamwerk werkt niet als de vergeleken modellen niet genest zijn. In tegenstelling tot, Bayesiaanse statistiek vergelijkt verschillende modellen door hun posterieure kansen te berekenen, die ons vertrouwen of geloof in het model aangeeft.

Niet alleen komen de twee methodologieën voort uit drastisch verschillende filosofieën, ze kunnen ook tegengestelde conclusies opleveren bij de analyse van dezelfde gegevens. Het is bekend dat Bayesiaanse modelselectie convergeert naar het echte model als het echte model wordt opgenomen in de modellen die worden overwogen.

Dat is, wanneer wetenschappers meer gegevens verzamelen, de latere waarschijnlijkheid voor het juiste model zal toenemen en de 100 procent benaderen, en ze zullen er dus steeds zekerder van worden wat het ware model is.

Echter, als alle overwogen modellen fout zijn, het gedrag van de Bayesiaanse methode is onbekend.

Wetenschappers hebben Bayesiaanse modelselectieproblemen gekarakteriseerd, en verdeelde ze in drie soorten, die elk een ander gedrag vertonen.

In het wetenschappelijk meest interessante geval, d.w.z., wanneer de vergeleken modellen verschillend en bijna even fout zijn, Bayesiaanse modelselectie vertoont problematisch gepolariseerd gedrag:het heeft de neiging om één model met volle kracht te ondersteunen in sommige datasets, maar ondersteunen een ander model in andere datasets.

Het resultaat kan worden samengevat aan de hand van de volgende analogie:stel dat de wereld grijs is, maar we vragen een wijze of hij zwart of wit is. Hij werpt een diepe blik op de wereld en zegt dat het zwart is, met het volste vertrouwen. Maar de volgende keer dat we dezelfde vraag stellen, hij zegt dat het wit is, weer vol vertrouwen.

Deze studie werd gemotiveerd door problemen in de moleculaire fylogenetica, dat is de wetenschap van het uitwerken van de relaties tussen soorten met behulp van genetische gegevens, vertegenwoordigd door evolutionaire bomen.

Deze verschillende bomen zijn tegengestelde statistische modellen in de Bayesiaanse analyse van de gegevens. Evolutionaire biologen hebben lang waargenomen dat de methode de neiging heeft om zeer hoge latere kansen te produceren voor de geschatte evolutionaire bomen (vaak 100 procent), zelfs als de bomen duidelijk verkeerd zijn.

Onze resultaten bieden een mogelijke verklaring voor dit onaangename gedrag. De implicaties van de resultaten voor het gebruik van Bayesiaanse modelselectie bij het testen van tegengestelde wetenschappelijke hypothesen in het algemeen moeten nog worden onderzocht.