science >> Wetenschap >  >> Elektronica

Datameren:waar grote bedrijven hun overtollige data dumpen, en hackers hebben een velddag

In tegenstelling tot speciaal gebouwde gegevensopslagsystemen, een data lake kan worden gebruikt om gegevens in de oorspronkelijke vorm te dumpen. Deze gegevens blijven meestal zonder toezicht. Krediet:Shutterstock.com

Machines en internet zijn verweven in het weefsel van onze samenleving. Een groeiend aantal gebruikers, apparaten en applicaties werken samen om te produceren wat we nu "big data" noemen. En deze gegevens helpen bij het aansturen van veel van de dagelijkse services waartoe we toegang hebben, zoals bankieren.

Een vergelijking van internetkiekjes uit 2018 en 2019 werpt licht op de toenemende snelheid waarmee digitale informatie dagelijks wordt uitgewisseld. De uitdaging om gegevens veilig vast te leggen en op te slaan wordt met de tijd ingewikkelder.

Dit is waar datawarehouses en datameren relevant zijn. Beide zijn online ruimtes die door bedrijven worden gebruikt voor interne gegevensverwerking en -opslag.

Helaas, sinds het concept van datameren ontstond in 2010, er is niet genoeg gedaan om problemen op het gebied van cyberbeveiliging aan te pakken.

Deze waardevolle opslagplaatsen blijven blootgesteld aan een toenemend aantal cyberaanvallen en datalekken.

Een voorgesteld wondermiddel voor big data-problemen

De traditionele benadering die door serviceproviders wordt gebruikt, is om gegevens op te slaan in een "datawarehouse" - een enkele opslagplaats die kan worden gebruikt om gegevens te analyseren, rapporten maken, en informatie te consolideren.

Echter, gegevens die een magazijn binnenkomen, moeten worden voorbewerkt. Met zettabytes aan gegevens in cyberspace, dit is geen gemakkelijke taak. Pre-processing vereist een flinke hoeveelheid rekenwerk door high-end supercomputers, en kost tijd en geld.

Om dit op te lossen werden datameren voorgesteld. In tegenstelling tot magazijnen, ze kunnen onbewerkte gegevens van elk type opslaan. Datameren worden vaak beschouwd als een wondermiddel voor big data-problemen, en zijn omarmd door veel organisaties die innovatie en nieuwe diensten voor gebruikers proberen te stimuleren.

James Dixon, de Amerikaanse datatechnicus die naar verluidt de term bedacht, beschrijft data lakes als volgt:"Als je een datamart ziet als een opslag van gebotteld water - gereinigd en verpakt en gestructureerd voor gemakkelijke consumptie - is het datameer een grote hoeveelheid water in een meer natuurlijke staat. De inhoud van de data lake-stroom in van een bron om het meer te vullen, en verschillende gebruikers van het meer kunnen komen kijken, induiken, of neem monsters."

Wees voorzichtig met zwemmen in een datameer

Hoewel datameren kansen creëren voor datacrunchers, hun digitale deuren blijven onbewaakt, en het oplossen van cyberveiligheidsproblemen blijft een bijzaak.

Ons vermogen om informatie uit datameren te analyseren en te extraheren, wordt bedreigd op het gebied van cyberspace. Dit blijkt uit het hoge aantal recente datalekken en cyberaanvallen wereldwijd.

Met technologische vooruitgang, we worden nog vatbaarder voor cyberaanvallen. Het aanpakken van kwaadwillende cyberactiviteiten zou een prioriteit moeten zijn in het huidige digitale klimaat.

Hoewel het onderzoek hiernaar de laatste jaren floreerde, er moet nog een sterke verbinding worden gemaakt tussen effectieve cyberbeveiliging en datameren.

Niet ongewoon om gecompromitteerd te worden

Door de vooruitgang in kwaadaardige software, specifiek in het verduisteren van malware, het is gemakkelijk voor hackers om een ​​gevaarlijk virus te verbergen in een ongevaarlijk uitziend bestand.

Het aantal aanvallen met valse data-injectie is de afgelopen tien jaar toegenomen.

De aanval vindt plaats wanneer een cybercrimineel gebruik maakt van gratis beschikbare tools om een ​​systeem dat met internet is verbonden, te compromitteren, om het te injecteren met valse gegevens.

De geïnjecteerde buitenlandse gegevens krijgen ongeautoriseerde toegang tot het datameer en manipuleert de opgeslagen gegevens om gebruikers te misleiden. Er zijn veel potentiële drijfveren achter een dergelijke aanval.

Onderdelen van datameren

Data lake-architectuur kan worden onderverdeeld in drie componenten:gegevensopname, gegevensopslag en gegevensanalyse.

Gegevensopname verwijst naar gegevens die vanuit verschillende bronnen in het meer komen. Dit gebeurt meestal zonder legitiem beveiligingsbeleid. Wanneer binnenkomende gegevens niet worden gecontroleerd op beveiligingsrisico's, een gouden kans wordt geboden voor cybercriminelen om valse gegevens te injecteren.

Het tweede onderdeel is gegevensopslag, dat is waar alle onbewerkte gegevens worden gedumpt. Opnieuw, dit gebeurt zonder noemenswaardige cyberveiligheidsoverwegingen.

Het belangrijkste onderdeel van datameren is data-analyse, die de expertise van analisten combineert, wetenschappers en data-officieren. Het doel van data-analyse is het ontwerpen en ontwikkelen van modelleringsalgoritmen die ruwe data kunnen gebruiken om zinvolle inzichten te produceren.

Bijvoorbeeld, data-analyse is hoe Netflix leert over het kijkgedrag van zijn abonnees.

Uitdagingen voor data-experts

De kleinste verandering of manipulatie in data lakes kan datacrunchers enorm misleiden en een wijdverbreide impact hebben.

Bijvoorbeeld, gecompromitteerde datameren hebben enorme gevolgen voor de gezondheidszorg, omdat elke afwijking in gegevens kan leiden tot een verkeerde diagnose, of zelfs slachtoffers.

Ook, overheidsinstanties die gecompromitteerde datameren gebruiken, kunnen te maken krijgen met chaos in internationale aangelegenheden en handelssituaties. de verdediging, financiën, bestuurs- en onderwijssectoren zijn ook kwetsbaar voor data lake-aanvallen.

Gezien de hoeveelheid gegevens die is opgeslagen in datameren, de gevolgen van cyberaanvallen zijn verre van triviaal.

En aangezien het genereren van enorme hoeveelheden data in de wereld van vandaag onvermijdelijk is, het is van cruciaal belang dat data lake-architecten harder hun best doen om ervoor te zorgen dat deze risicovolle datadepots correct worden onderhouden.

Dit artikel is opnieuw gepubliceerd vanuit The Conversation onder een Creative Commons-licentie. Lees het originele artikel.