science >> Wetenschap >  >> Elektronica

Genetisch door het onzichtbare web kruipen

Krediet:CC0 Publiek Domein

Het wereldwijde web is enorm gegroeid sinds zijn academische en onderzoeksstart in 1991, en de daaropvolgende uitbreiding naar het publieke en commerciële domein. aanvankelijk, het was een netwerk van pagina's met hyperlinks en andere digitale bronnen. Heel vroeg, het werd duidelijk dat sommige bronnen zo groot waren dat het logischer zou zijn om de materialen die nodig zijn voor individuele gebruikers dynamisch te genereren in plaats van elke afzonderlijke digitale entiteit als een uniek item op te slaan.

Vandaag, talloze websites zijn dynamisch, elk uniek bezoek haalt informatie en data dynamisch uit een back-end database en presenteert deze on-demand aan de gebruiker. Terwijl statische pagina's gemakkelijk kunnen worden doorzocht door zoekmachines, database-inhoud die dynamische websites aandrijft, is ontoegankelijk. Zelfs al in 2001, toen er al enkele terabytes aan openbare, statische webgegevens, werd geschat dat het "onzichtbare web, " of "verborgen web, " niet te verwarren met het "dark web, " was zo'n 550 keer groter dan de zichtbare middelen.

Schrijven in het International Journal of Business Intelligence and Data Mining, een team uit India beschrijft hoe ze een op genetische algoritmen gebaseerde intelligente multi-agentarchitectuur hebben ontwikkeld die informatie uit het onzichtbare web kan halen. De tools zouden het mogelijk kunnen maken dat zelfs materialen die zogenaamd niet toegankelijk zijn voor conventionele zoekmachines, worden gespideerd, geschraapt, en gecatalogiseerd voor een breed scala aan toepassingen.

D. Weslin van de Bharathiar University en Joshva Devadas van het Vellore Institute of Technology beschrijven de details en voordelen van hun aanpak in het laatste nummer van het tijdschrift. "De experimentele resultaten laten zien dat de voorgestelde architectuur een betere precisie en terugroepactie biedt dan de bestaande webcrawlers, ’, schrijft het team.