science >> Wetenschap >  >> Elektronica

Je internetgegevens rotten

Het internet groeit, maar oude informatie blijft dagelijks verdwijnen. Krediet:wk1003mike/shutterstock.com

Veel MySpace-gebruikers waren verbijsterd toen ze eerder dit jaar ontdekten dat het socialemediaplatform 50 miljoen bestanden verloor die tussen 2003 en 2015 waren geüpload.

Het falen van MySpace om voor de inhoud van zijn gebruikers te zorgen en deze te behouden, zou moeten dienen als een herinnering dat vertrouwen op gratis diensten van derden riskant kan zijn.

MySpace heeft waarschijnlijk de gegevens van de gebruikers bewaard; het verloor gewoon hun inhoud. De gegevens waren waardevol voor MySpace; de inhoud van de gebruikers minder.

Wat is er met MySpace gebeurd?

MySpace is een sociale netwerkmediasite waar artiesten muziek of andere inhoud kunnen uploaden voor toegang en distributie naar de gebruikersgemeenschap. Het is altijd een gratis site geweest, met inkomsten uit advertenties en programma's die zich richten op gebruikers voor specifieke producten.

Opgericht in 2003 in navolging van de sociale gaming-site Friendster, MySpace groeide snel en werd in 2005 gekocht door Rupert Murdoch's News Corporation. In 2008 MySpace was de toonaangevende sociale netwerksite, ooit gewaardeerd op 12 miljard dollar, maar het daalde in populariteit - dankzij een overmatige prevalentie van advertenties, bezorgdheid over blootstelling van minderjarigen aan seksuele inhoud en andere problemen. In 2011, News Corporation verkocht MySpace aan Specific Media, die het in 2016 weer verkocht aan Time Inc., die op zijn beurt werd gekocht door de Meredith Corporation in 2018.

Dus het bedrijf onderging drie eigendomswisselingen over een periode van 12 jaar, en zag de inkomsten en het lidmaatschap in die tijd snel dalen. Een verkoop is misschien goed, maar drie verkopen op korte termijn suggereren voor mij een bedrijf in moeilijkheden dat niet in een goede positie verkeerde om over het intellectuele eigendom van anderen te waken.

Iedereen die MySpace als opslagservice gebruikt en geen alternatieve back-up had, heeft gewoon pech. Je hebt je intellectuele eigendom naast de informatiesnelweg achtergelaten, en toen je 10 jaar later terugkwam, was het weg.

MySpace is niet de enige die problemen ondervindt. Amazon-clouddiensten, bijvoorbeeld, had ook een aanzienlijke storing in 2011 en een andere in 2017. Hoewel tijdelijk, en zonder daadwerkelijk gegevensverlies, deze storingen zorgden ervoor dat gebruikers enige tijd geen toegang hadden tot kostbare en belangrijke bestanden.

Een veel groter probleem

Het behoud van inhoud of intellectueel eigendom op internet is een raadsel. Als het toegankelijk is, dan is het niet veilig; als het veilig is, dan is het niet toegankelijk.

Toegankelijke inhoud is onderhevig aan manipulatie, diefstal of andere soorten slechte acties. Alleen inhoud die ontoegankelijk is, kan worden vergrendeld en beschermd tegen hacking.

Het internet heeft momenteel toegang tot ongeveer 15 zettabyte aan gegevens, en groeit met een snelheid van 70 terabyte per seconde. Het is een weliswaar lek vat, en inhoud gaat constant offline om voor altijd verloren te gaan.

In een verklaring, Myspace zei, 'Onze excuses voor het ongemak.' Credit:chrisdorney/shutterstock.com

Er worden enorme en wanhopige pogingen ondernomen om te behouden wat de moeite waard is om te behouden, maar zelfs het uitzoeken wat wel en wat niet is, is op zich al een formidabele onderneming. Wat is over 10 jaar – of 50 jaar – van waarde? En hoe het te bewaren?

Zuurvrij papier kan 500 jaar meegaan; stenen inscripties nog langer. Maar magnetische media zoals harde schijven hebben een veel kortere levensduur, duurt slechts drie tot vijf jaar. Ze moeten ook worden gekopieerd en geverifieerd op een zeer korte levenscyclus om gegevensdegradatie te voorkomen bij waargenomen uitvalpercentages tussen 3% en 8% per jaar.

Dan is er ook nog een probleem van softwarebehoud:hoe kunnen mensen vandaag of in de toekomst die WordPerfect- of WordStar-bestanden uit de jaren 80, wanneer de oorspronkelijke softwarebedrijven hen niet meer ondersteunen of failliet zijn gegaan?

Een non-profit start-up genaamd The Internet Archive bewaart doorlopend snapshots van het web, maar meestal is dit voor openbare HTML-webpagina's op het hoogste niveau, zoals de website van The New York Times en Facebook, niet voor onderliggende inhoudsbestanden. Sinds afgelopen najaar zijn Wayback Machine bevatte meer dan 450 miljard pagina's in 25 petabytes aan gegevens. Dit zou .0003% van het totale internet vertegenwoordigen.

Universiteiten, regeringen en wetenschappelijke verenigingen worstelen om wetenschappelijke gegevens te bewaren in een mengelmoes van archieven, zoals de Digital Preservation Coalition van het VK, MetaArchief, of het inmiddels opgeheven collaboratieve Digital Preservation Network. Bewaren is moeilijk en duur in de tijd, geld en apparatuur. Om het nuttigst te zijn, het moet niet alleen worden opgeslagen, maar gehost in een vorm die toegankelijk en beschikbaar is voor toekomstig hergebruik.

Werkelijke opslag kost minder dan $ 0,05 per gigabyte, maar opslag is slechts een klein percentage van de kosten van bewaring. Acquisitie, netwerken, onderhoud en administratie vereisen allemaal aanzienlijke en dure menselijke arbeid.

Budgetmodellen suggereren een 10-jarige conserveringskosten van ongeveer $ 2,50 per gigabyte, of $2, 500 per terabyte, of $625, 000 voor de bestanden die MySpace niet kon bewaren.

Rekening houdend met uw eigen gegevens

Dus ja, het internet is aan het rotten, maar archivarissen en digitale bibliothecarissen zoals ik wisten dat het al verrot was, net als iedereen die ooit een "404 File Not Found" -fout kreeg.

Waar er een economische prikkel is om gegevens te bewaren en te gebruiken, zoals gebruikersinformatie, profielen of browsegeschiedenis - het kan al een behoorlijk lange tijd bestaan. Velen hebben gezegd dat data de nieuwe olie is, en bedrijven staan ​​te popelen om deze hulpbron te boren en te exploiteren.

Echter, waar inhoud minder waardevol is voor de eigenaar van de servers, er is minder prikkel om te investeren in het behoud ervan. Een onderzoek onder 10 miljoen hits van 25 willekeurige sites in 2004 suggereert dat 404-fouten voorkomen bij bijna 3% van de gerichte URL's. Het internet groeit veel sneller dan het rot, maar beide dingen gebeuren tegelijk. Geen enkel groot internetbedrijf heeft uw belangen dichter bij het hart dan die van hemzelf.

Eén bewaarnetwerk is bekend onder het acroniem LOCKSS – Lots of Copies Keeps Stuff Safe – en dat is een goede vuistregel. Zorg altijd voor een back-up, en heb altijd meerdere back-ups. Bewaak uw privacy en bewaak uw inhoud, tenminste die inhoud die u misschien wilt behouden, zoals foto's, e-mail, dat scenario of die roman, of video- en muziekbestanden. Auteursrechtregels verbieden niet het opslaan van inhoud die u mogelijk hebt gekocht, zolang je het niet openbaar deelt.

Gratis opslag is een mooi aanbod, maar soms krijg je alleen waar je voor betaalt. Het internet is niet veilig of permanent. Het beloofde nooit te worden, en gebruikers moeten er niet vanuit gaan dat dit zo zal worden. Delen zijn aan het rotten en corroderen en vallen in elkaar terwijl ik dit typ. Hoop maar en plan om niet op dat platform te rusten als het valt.

Dit artikel is opnieuw gepubliceerd vanuit The Conversation onder een Creative Commons-licentie. Lees het originele artikel.