Internet se ‘pudre’: ¿estamos perdiendo nuestra memoria digital?

Cada día, miles de páginas web desaparecen sin dejar rastro. Y con ellas, se esfuman recuerdos, conocimientos y fragmentos de nuestra historia. Cuando todo parece estar a un clic de distancia, resulta paradójico que la World Wide Web (WWW) que llamamos internet –ese inmenso archivo digital de nuestra civilización global– se evapore en silencio.
Hace casi 4.000 años, un comerciante escribió en una tablilla de arcilla una queja sobre unos lingotes de cobre defectuosos. Esa reclamación ha sobrevivido hasta hoy. En cambio, blogs, foros y webs personales publicadas hace apenas quince años han desaparecido. ¿Cómo es posible que una queja de la Edad del Bronce sea más perdurable que un post de 2009?
La clave está en la fragilidad de internet. Los contenidos digitales, si no se preservan de forma activa, son por naturaleza efímeros.
A diferencia de soportes físicos como la arcilla, el papiro o el papel, las páginas web dependen de servidores que requieren mantenimiento, dominios que deben renovarse y formatos que tarde o temprano quedan obsoletos.
Cuando un servidor desaparece, un dominio caduca, se gestionan mal las redirecciones o una página se apoya en tecnologías en desuso, el resultado es el mismo: los contenidos se vuelven inaccesibles y, cuando finalmente desaparecen, nadie lo nota.
Este fenómeno se denomina link rot (en español, ‘enlaces podridos’) y es continuo. En un análisis de los tuits que publiqué yo mismo entre 2007 y 2023, se comprobó que el 13 % de los enlaces no funcionaban y que, si el tuit tenía más de diez años, la cifra subía al 30 %. Es decir, casi un tercio de los contenidos enlazados hace una década han quedado inaccesibles... si no se han esfumado por completo.
El apagón silenciosoEn Blade Runner 2049, un gran apagón provocado por activistas replicantes borra todos los registros digitales. Pero no hace falta llegar a un escenario tan extremo para que desaparezcan ingentes cantidades de información en un abrir y cerrar de ojos. Aunque, al igual que en la película, esos borrados son fruto de decisiones conscientes, generalmente tomadas por empresas privadas. Por ejemplo, el cierre de plataformas como Yahoo! Respuestas, Geocities, Tuenti o los foros de Meristation supuso la pérdida de millones de textos, imágenes y conversaciones que documentaban parte de nuestras vidas y de nuestra cultura digital.
Por otro lado, a diferencia de gobiernos anteriores que implementaron políticas para preservar la información disponible en sitios web gubernamentales, la administración de Donald Trump ha eliminado sistemáticamente miles de páginas y datos oficiales en agencias como los Centros para el Control y la Prevención de Enfermedades (CDC), la Oficina Nacional de Administración Oceánica y Atmosférica (NOAA) y la Agencia de Protección Ambiental (EPA).
Estos borrados han afectado principalmente a contenidos relacionados con salud pública, cambio climático, diversidad y derechos sociales. Han provocado una pérdida significativa de información pública y científica, y han generado alarma, especialmente, entre la comunidad científica.
La paradoja es evidente: nuestra civilización produce más contenido que nunca, pero lo hace en formatos volátiles y, además, lo está perdiendo más rápido de lo que se imagina.
Todo esto ocurre mientras cada vez más información (actas parlamentarias, boletines oficiales, artículos científicos o manuales técnicos, entre otros) se publica en formato digital, a menudo sin copia física.
La paradoja es evidente: nuestra civilización produce más contenido que nunca, pero lo hace en formatos volátiles y, además, lo está perdiendo más rápido de lo que se imagina.
A pesar de este panorama, existen esfuerzos por preservar nuestra memoria digital. El más conocido es la Wayback Machine del Internet Archive, que desde 1996 ha archivado miles de millones de páginas web. A nivel nacional, instituciones como la Biblioteca Nacional de España, o sus equivalentes en el Reino Unido y Australia, también trabajan para conservar parte del patrimonio digital.
¿Qué se está haciendo?Del mismo modo, frente a borrados masivos y deliberados como los llevados a cabo por la administración Trump, diversas organizaciones colaboran para archivar la información eliminada. Estas iniciativas buscan garantizar el acceso futuro a datos públicos, no solo con fines de investigación, sino también para preservar el registro histórico.
Por supuesto, no es una tarea sencilla. La WWW actual es mucho más compleja que la de los años noventa: los contenidos son dinámicos e interactivos, ya no simples documentos HTML. Además, archivar contenido de redes sociales o multimedia no solo representa un enorme desafío técnico, agravado por las trabas impuestas por las propias plataformas, sino que también plantea dilemas éticos y legales relacionados con la privacidad y el consentimiento de los usuarios. Dicho de otro modo: no todo se puede ni se debe conservar.
Aun así, todos podemos contribuir: herramientas como Save Page Now, de la Wayback Machine, o Archive.today permiten a cualquiera archivar una copia de cualquier página web simplemente introduciendo su URL.
Puede que dentro de 4.000 años nadie encuentre nuestras quejas sobre lingotes defectuosos, pero sí nuestras recetas, memes y discusiones en foros y, con ellas, una semblanza de quiénes fuimos.
Finalmente, decir que la WWW se pudre es como decir que un bosque se pudre: siempre hay algo que muere, pero también algo que nace, puesto que la red está en constante transformación. Lo importante es saber que podemos capturar fragmentos, preservar lo esencial y construir una memoria digital más sólida, menos vulnerable a los vaivenes tecnológicos o a las decisiones de unas pocas empresas o gobiernos.
Puede que dentro de 4.000 años nadie encuentre nuestras quejas sobre lingotes defectuosos, pero sí nuestras recetas, memes y discusiones en foros y, con ellas, una semblanza de quiénes fuimos.
(*) Profesor titular en el Departamento de Informática, Universidad de Oviedo.
(**) Es una organización sin ánimo de lucro que busca compartir ideas y conocimientos académicos con el público. Este artículo es reproducido aquí bajo licencia de Creative Commons.
Cuatro de cada diez de las páginas web de 2013 ya no existen
Foto:iStock
Este 1.º de enero, internet como lo conocemos cumplió 42 años, y en estas más de cuatro décadas los usuarios han generado una gran cantidad de información en la web: solo en 2023 fueron 120 zettabytes (ZB) de datos y se espera que este año la cifra aumente un 150 %, alcanzando los 181 ZB, de acuerdo con información recopilada por Statista. Para dimensionar esa cifra hay que decir que un ZB equivale a mil millones de terabytes (TB), y las tarjetas de memoria tipo SDUC más grandes del mercado hoy en día llegan apenas a 128 TB.
Sin embrago, lo que se sube a la red no siempre permanece. Es probable que más de una vez haya hecho clic en un enlace y se haya encontrado con el mensaje “404 No encontrado”, que no lo dirige a lo que estaba buscando. Un informe publicado en 2024 por el Pew Research Center reveló que parte del contenido digital se pierde con el tiempo, incluso en sitios considerados confiables, como portales gubernamentales, medios de comunicación, redes sociales y Wikipedia.
“Internet es un repositorio inimaginablemente vasto de la vida moderna, con cientos de miles de millones de páginas web indexadas. Pero aunque usuarios de todo el mundo recurren a la web para acceder a libros, imágenes, noticias y otros recursos, este contenido a veces desaparece”, señala el documento.
El estudio analizó una muestra de casi un millón de páginas web guardadas entre 2013 y 2023 a través de Common Crawl, un servicio de archivo que recopila periódicamente instantáneas de internet tal como existían en diferentes momentos. Los hallazgos indicaron que el 25 % de todas las páginas analizadas ya no eran accesibles para octubre de 2023. Desglosada, esa cifra es la suma de un 16 % de páginas caídas, pero que provenían de un dominio principal que seguía activo, y un 9 % de sitios web inaccesibles porque su dominio raíz dejó de servir.
El análisis también encontró que mientras más antigua la página, más posibilidades tenía de haber desaparecido, pues de las muestras recopiladas del 2013, el 38 % ya no eran accesibles para el año 2023; pero incluso de páginas recopiladas del 2021, aproximadamente una de cada cinco ya no servían dos años después.
El deterioro digital no solo afecta a páginas personales o sitios de bajo tráfico. Pew Research Center incluyó 500.000 páginas web de gobiernos locales, estatales y federales en Estados Unidos utilizando la instantánea de marzo/abril de 2023 de Common Crawl, y en esas páginas se encontró que, para octubre de 2023, el 21 % contenía al menos un enlace roto, y un 16 % de los enlaces dentro de las páginas web redirigían a URL distintas de las que apuntaban originalmente.
En el caso de los medios de comunicación, la muestra también fue de 500.000 páginas de la foto marzo/abril de 2023 de Common Crawl. Las páginas provenían de 2.063 sitios web clasificados como ‘Noticias/Información’ por la firma de métricas de audiencia comScore y se encontró que para el momento del estudio, en octubre de 2023, el 23 % de las páginas tenían enlaces rotos.
Incluso Wikipedia, uno de los sitios más visitados del mundo, presenta este problema: de una muestra de 50.000 de sus páginas en inglés, el 54 % tenían al menos un enlace en su sección “Referencias” que redirigía a una página que ya no existía.
eltiempo