Wetenschap
Krediet:CC0 Publiek Domein
Voorspellende modellering van zeer grote datasets, zoals omgevingsmetingen, over een groot gebied kan een zeer rekenintensieve oefening zijn. Deze rekenkundige eisen kunnen aanzienlijk worden verminderd door verschillende benaderingen toe te passen, maar tegen welke prijs voor nauwkeurigheid? KAUST-onderzoekers hebben nu statistische hulpmiddelen ontwikkeld die het giswerk uit dit benaderingsproces helpen verwijderen.
"In ruimtelijke statistieken, het is extreem tijdrovend om een standaard procesmodel aan te passen aan grote datasets met behulp van de meest nauwkeurige op waarschijnlijkheid gebaseerde methoden, " zegt Yiping Hong, die het onderzoek leidde. "Aanpassingsmethoden kunnen de rekentijd en computerbronnen aanzienlijk verminderen."
In plaats van de relatie tussen elk paar waarnemingen expliciet te modelleren met behulp van een standaard procesmodel, benaderingsmethoden proberen een alternatieve modelleringsstructuur aan te nemen om de relaties in de gegevens te beschrijven. Deze benadering is minder nauwkeurig, maar rekenkundig vriendelijker. De tegel low-rank (TLR) schattingsmethode ontwikkeld door KAUST, bijvoorbeeld, past een bloksgewijze benadering toe om de rekentijd te verminderen.
"Dus, men moet enkele afstemmingsparameters bepalen, zoals hoeveel blokken moeten worden gesplitst en de precisie van de blokbenadering, ", zegt Hong. "Hiervoor, we hebben drie criteria ontwikkeld om het verlies aan voorspellingsefficiëntie te beoordelen, of het verlies van informatie, wanneer het model wordt benaderd."
Bij gebrek aan informatieve maatregelen om de impact van benadering te evalueren, Hong, samen met computerwetenschapper Sameh Abdulah en statistici Marc Genton en Ying Sun, hun eigen ontwikkeld. De drie maatregelen:het gemiddelde verlies aan efficiëntie, de gemiddelde misspecificatie en een kwadraat van de gemiddelde misspecificatie - samen geven ze inzicht in de "fit" van de benaderingsparameters voor de dataset, inclusief voorspellingsvariabiliteit, en niet alleen de puntsgewijze evaluatie die wordt gegeven door het conventionele voorspellingscriterium.
"We kunnen onze criteria gebruiken om de voorspellingsprestaties van de TLR-methode te vergelijken met verschillende afstemmingsparameters, waarmee we de beste parameters kunnen voorstellen om te gebruiken, " zegt Hong.
Het team paste de methode toe op een echte dataset van bodemvochtmetingen met hoge resolutie in het Mississippi-bekken. Door afstemmingsparameters aan te passen met behulp van de nieuwe maten, de TLR-benadering leverde schattingen op die zeer dicht bij de exacte schattingen van de maximale waarschijnlijkheid liggen, met een aanzienlijk kortere rekentijd.
"Onze criteria, die zijn ontwikkeld om de afstemparameter voor TLR te kiezen, kan ook worden gebruikt om andere benaderingsmethoden af te stemmen, ", zegt Hong. "We zijn nu van plan om de prestaties te vergelijken van andere benaderingsmethoden die zijn ontwikkeld voor grote ruimtelijke datasets, die waardevolle richtlijnen zullen bieden voor de analyse van echte gegevens."
Wetenschap © https://nl.scienceaq.com