science >> Wetenschap >  >> Elektronica

Gratis datasetarchief helpt onderzoekers snel een speld in een hooiberg te vinden

Ahmed Eldawy. Krediet:UC Riverside

Stel dat u onderzoek doet waarvoor miljoenen geotagged tweets nodig zijn. Of misschien ben je een journalist die de moorden in Chicago van 2001 tot heden in kaart wil brengen. U moet grote ruimtelijk-temporele datasets vinden, maar waar?

Hoewel er honderden openbaar beschikbare datasets zijn, het lokaliseren ervan kan maanden van zoeken vergen. Wanneer potentiële bronnen worden gevonden, ze bieden zelden genoeg informatie voor een onderzoeker om te beslissen of de set daadwerkelijk het soort gegevens bevat dat ze nodig hebben zonder het vaak enorme bestand te downloaden en het eerst te sorteren.

Dankzij een computerwetenschapper aan de Universiteit van Californië, rivieroever, het vinden van de juiste dataset is nu net zo eenvoudig als het bookmarken van een website, en het kost helemaal niets.

Ahmed Eldawy, een assistent-professor computerwetenschappen aan het Marlan and Rosemary Bourns College of Engineering, en zijn groep bracht de afgelopen drie jaar door met het uitkammen van het internet naar openbare ruimte-tijd datasets, hun attributen bestuderen, en het samenvatten van de resultaten voor elke set op interactieve kaarten die de gebruiker precies laten zien wat hij krijgt.

"Mensen die aan datawetenschap werken, hebben datasets nodig, maar kunnen veel tijd besteden aan het vinden ervan, "Zei Eldawy. "Ik wilde een archief bouwen dat ze gemakkelijk kunnen vinden."

Genaamd de UCR Spatio-temporal Active Repository, of UCR STAR, het archief wordt beschikbaar gesteld als een service aan de onderzoeksgemeenschap om gemakkelijke toegang te bieden tot grote ruimtelijk-temporele datasets via een interactieve verkennende interface. Gebruikers kunnen die datasets doorzoeken en filteren alsof ze winkelen voor hun onderzoek, behalve dat alles gratis is.

"De kaartinterface visualiseert de gegevens, zodat je kunt zien of het goed zit, "Zei Eldawy. "Het is als een catalogus voor datasets."

In het hart van UCR STAR, de kaart biedt een interactieve verkennende interface voor de dataset. Net als bij Google Maps of andere webkaarten, gebruikers kunnen in- en uitzoomen en pannen om een ​​snel overzicht te krijgen van de gegevensdistributie, Dekking, en nauwkeurigheid.

Belangrijke details worden weergegeven zodra een dataset is geselecteerd, zoals de originele homepage, een link naar de originele downloadbron, grootte in bytes, aantal records, bestandsformaat, en andere nuttige informatie. Met de subset-downloadfunctie kunnen gebruikers snel de gegevens downloaden in een bepaalde geografische regio, wat de downloadgrootte verkleint. Ze kunnen ook hun aangepaste weergave op een webpagina insluiten of de link delen via sociale media en een bladwijzer maken om deze later opnieuw te bezoeken.

UCR STAR bevat 102 datasets en 5 miljard records. De datasets zijn in kaart gebracht met behulp van Da Vinci, een open source framework gebouwd bovenop Apache Spark dat Eldawy heeft ontworpen om met ruimtelijke gegevens te werken. De UCR STAR-website is het best toegankelijk via een desktopbrowser, maar heeft ook een beperkte mobielvriendelijke interface.