Het internet rot: verliezen we ons digitale geheugen?

Elke dag verdwijnen duizenden webpagina's spoorloos. En daarmee verdwijnen ook herinneringen, kennis en fragmenten van onze geschiedenis. Wanneer alles binnen handbereik lijkt, is het paradoxaal dat het World Wide Web (WWW) dat we internet noemen – dat immense digitale archief van onze wereldwijde beschaving – stilletjes aan het verdampen is.
Bijna 4000 jaar geleden schreef een koopman een klacht over defecte koperstaven op een kleitablet. Die klacht is tot op de dag van vandaag bewaard gebleven. Blogs, forums en persoonlijke websites die slechts vijftien jaar geleden werden gepubliceerd, zijn echter verdwenen. Hoe is het mogelijk dat een klacht uit de Bronstijd hardnekkiger is dan een bericht uit 2009?
De sleutel ligt in de kwetsbaarheid van het internet. Digitale content is, indien niet actief bewaard, van nature vluchtig.
In tegenstelling tot fysieke media zoals klei, papyrus of papier, zijn websites afhankelijk van servers die onderhoud vereisen, domeinen die vernieuwd moeten worden en formaten die vroeg of laat verouderen.
Wanneer een server verdwijnt, een domein verloopt, redirects verkeerd worden beheerd of een website afhankelijk is van verouderde technologieën, is het resultaat hetzelfde: de content wordt ontoegankelijk en wanneer deze uiteindelijk verdwijnt, merkt niemand het.
Dit fenomeen heet linkrot en het is nog steeds gaande. Uit een analyse van tweets die ik tussen 2007 en 2023 heb geplaatst, bleek dat 13% van de links verbroken was. Als de tweet ouder was dan tien jaar, liep dat percentage zelfs op tot 30%. Met andere woorden: bijna een derde van de content waarnaar tien jaar geleden werd gelinkt, is ontoegankelijk geworden... of zelfs helemaal verdwenen.
De stille stroomuitval In Blade Runner 2049 wist een enorme stroomstoring, veroorzaakt door activisten die zich bezighouden met replicanten, alle digitale gegevens. Maar er is geen extreem scenario nodig om enorme hoeveelheden informatie in een oogwenk te laten verdwijnen. Net als in de film zijn deze uitwissingen echter het resultaat van bewuste beslissingen, meestal genomen door particuliere bedrijven. Zo betekende de sluiting van platforms zoals Yahoo! Answers, Geocities, Tuenti of de Meristation-forums het verlies van miljoenen teksten, afbeeldingen en gesprekken die een deel van ons leven en onze digitale cultuur documenteerden.
Aan de andere kant heeft de regering van Donald Trump , in tegenstelling tot eerdere regeringen die beleid voerden om informatie op overheidswebsites te bewaren, systematisch duizenden pagina's en officiële gegevens van instanties zoals de Centers for Disease Control and Prevention (CDC), de National Oceanic and Atmospheric Administration (NOAA) en de Environmental Protection Agency (EPA) verwijderd .
Deze verwijderingen hadden voornamelijk betrekking op content met betrekking tot volksgezondheid, klimaatverandering, diversiteit en sociale rechten. Ze leidden tot een aanzienlijk verlies van publieke en wetenschappelijke informatie en leidden tot grote onrust, met name binnen de wetenschappelijke gemeenschap.
De paradox is duidelijk: onze beschaving produceert meer content dan ooit, maar doet dat in onstabiele formaten en verliest die bovendien sneller dan we denken.
Dit alles gebeurt terwijl steeds meer informatie (onder andere parlementaire notulen, officiële mededelingen, wetenschappelijke artikelen en technische handleidingen) in digitale vorm wordt gepubliceerd, vaak zonder fysieke kopie.
De paradox is duidelijk: onze beschaving produceert meer content dan ooit, maar doet dat in onstabiele formaten en verliest die bovendien sneller dan we denken.
Ondanks deze situatie zijn er inspanningen om ons digitale geheugen te behouden. De bekendste is de Wayback Machine van het Internet Archive, die sinds 1996 miljarden webpagina's heeft gearchiveerd . Op nationaal niveau werken instellingen zoals de Nationale Bibliotheek van Spanje, of haar equivalenten in het Verenigd Koninkrijk en Australië, ook aan het behoud van een deel van ons digitale erfgoed.
Wat wordt er gedaan? Evenzo werken verschillende organisaties samen om verwijderde informatie te archiveren, nu er massale en opzettelijke verwijderingen plaatsvinden, zoals die door de regering-Trump. Deze initiatieven zijn erop gericht om de toegang tot openbare gegevens in de toekomst te waarborgen, niet alleen voor onderzoeksdoeleinden, maar ook om historische gegevens te bewaren.
Natuurlijk is het geen eenvoudige taak. Het hedendaagse WWW is veel complexer dan in de jaren negentig: content is dynamisch en interactief, niet langer een simpel HTML-document. Bovendien vormt het archiveren van sociale media of multimediacontent niet alleen een enorme technische uitdaging, verergerd door de obstakels die de platforms zelf opwerpen, maar brengt het ook ethische en juridische dilemma's met zich mee met betrekking tot de privacy en toestemming van gebruikers. Met andere woorden: niet alles kan of mag bewaard worden.
Toch kunnen we allemaal een bijdrage leveren: hulpmiddelen zoals Save Page Now, Wayback Machine en Archive.today stellen iedereen in staat een kopie van een webpagina te archiveren door simpelweg de URL in te voeren.
Misschien vindt over 4000 jaar niemand meer onze klachten over gebrekkige staven, maar ze vinden wel onze recepten, memes en forumdiscussies, en daarmee een glimp van wie we waren.
Uiteindelijk is zeggen dat het WWW aan het rotten is, hetzelfde als zeggen dat een bos aan het rotten is: er sterft altijd wel iets, maar er wordt ook iets geboren , omdat het netwerk voortdurend verandert. Het belangrijkste is te weten dat we fragmenten kunnen vastleggen, de essentie kunnen bewaren en een robuuster digitaal geheugen kunnen opbouwen, minder kwetsbaar voor technologische schommelingen of de beslissingen van een paar bedrijven of overheden.
Misschien vindt over 4000 jaar niemand meer onze klachten over gebrekkige staven, maar ze vinden wel onze recepten, memes en forumdiscussies, en daarmee een glimp van wie we waren.
(*) Hoogleraar aan de faculteit computerwetenschappen, Universiteit van Oviedo.
(**) Het is een non-profitorganisatie die ideeën en academische kennis met het publiek wil delen. Dit artikel wordt hier gereproduceerd onder een Creative Commons-licentie.
Vier op de tien websites uit 2013 bestaan niet meer 
Foto: iStock
Op 1 januari bestond het internet zoals we dat kennen 42 jaar. In die ruim veertig jaar hebben gebruikers een enorme hoeveelheid informatie op het web gegenereerd: alleen al in 2023 was er 120 zettabyte (ZB) aan data, en dit jaar zal dit aantal naar verwachting met 150% toenemen tot 181 ZB, volgens gegevens verzameld door Statista. Ter vergelijking: één ZB staat gelijk aan één miljard terabyte (TB), en de grootste SDUC-geheugenkaarten op de markt hebben momenteel een capaciteit van slechts 128 TB.
Wat online wordt geüpload, blijft echter niet altijd bestaan. Je hebt waarschijnlijk al vaker op een link geklikt en de melding "404 Not Found" gekregen, die je niet naar wat je zocht brengt. Een rapport uit 2024 van het Pew Research Center onthulde dat sommige digitale content na verloop van tijd verloren gaat, zelfs op sites die als betrouwbaar worden beschouwd, zoals overheidsportals, nieuwssites, sociale media en Wikipedia.
"Het internet is een onvoorstelbaar grote opslagplaats van het moderne leven, met honderden miljarden geïndexeerde webpagina's. Maar terwijl gebruikers over de hele wereld het web gebruiken om toegang te krijgen tot boeken, afbeeldingen, nieuws en andere bronnen, verdwijnt deze content soms", aldus het document.
Het onderzoek analyseerde een steekproef van bijna een miljoen webpagina's die tussen 2013 en 2023 waren opgeslagen via Common Crawl, een archiefdienst die periodiek momentopnames maakt van het internet zoals dat er op verschillende tijdstippen uitzag. De bevindingen gaven aan dat 25% van alle geanalyseerde pagina's in oktober 2023 niet meer toegankelijk was. Uitgesplitst omvat dit cijfer 16% van de pagina's die offline waren, maar afkomstig waren van een primair domein dat nog steeds actief was, en 9% van de websites die ontoegankelijk waren omdat hun rootdomein niet meer actief was.
Uit de analyse bleek ook dat hoe ouder de pagina is, hoe groter de kans dat deze verdwenen is: van de in 2013 verzamelde monsters was 38% in 2023 niet meer toegankelijk ; maar zelfs van de in 2021 verzamelde pagina's was ongeveer één op de vijf twee jaar later niet meer bruikbaar.
Digitaal verval treft niet alleen persoonlijke pagina's of websites met weinig verkeer. Pew Research Center analyseerde 500.000 lokale, provinciale en federale overheidswebpagina's in de Verenigde Staten met behulp van de momentopname van Common Crawl van maart/april 2023 en ontdekte dat in oktober 2023 21% van die pagina's minstens één verbroken link bevatte, en dat 16% van de links binnen webpagina's doorverwees naar andere URL's dan de oorspronkelijke.
Voor nieuwsmedia omvatte de steekproef ook 500.000 pagina's uit de momentopname van Common Crawl van maart/april 2023. De pagina's waren afkomstig van 2063 websites die door het onderzoeksbureau comScore waren geclassificeerd als 'Nieuws/Informatie'. Ten tijde van het onderzoek, in oktober 2023, bleek 23% van de pagina's gebroken links te bevatten.
Zelfs Wikipedia, een van de meest bezochte websites ter wereld, kampt met dit probleem: uit een steekproef van 50.000 Engelstalige pagina's bleek dat 54% minstens één link in de sectie 'Referenties' had die doorverwees naar een pagina die niet meer bestond.
eltiempo