Internet Archive y su Wayback Machine: la memoria no oficial en riesgo

Internet Archive y su Wayback Machine se han convertido en la memoria no oficial de la web, pero hoy están bajo fuego combinado de editoriales, grandes medios, ataques informáticos y, de rebote, de la carrera por entrenar modelos de inteligencia artificial. Lo que está en juego es si el archivo de internet seguirá siendo un bien público, gratuito y accesible, o si acabará fragmentado, cerrado y secuestrado por intereses comerciales y algoritmos opacos.

Un archivo que incomoda al poder

Hace poco, un reportaje de USA Today sobre el Servicio de Inmigración y Control de Aduanas (ICE) de Estados Unidos reconstruyó, con ayuda de la Wayback Machine, cómo el gobierno fue cambiando —y suavizando— la información pública sobre el impacto de sus políticas de detención durante la presidencia de Trump. Los periodistas compararon versiones antiguas y nuevas de páginas oficiales para documentar qué datos se borraron o reescribieron, algo imposible sin copias históricas de esos sitios.

La Wayback Machine, cuaderno de notas de la red

La Wayback Machine, lanzada en 2001 como parte del Internet Archive, rastrea la web y almacena versiones históricas de páginas de todo tipo: medios, blogs, webs oficiales, foros, campañas políticas, casi todo lo que alguna vez fue público. Historiadores, académicos, activistas y periodistas la usan constantemente para demostrar qué decía una web antes de ser editada o borrada, reconstruir cronologías y documentar cambios de postura de gobiernos y empresas.

Ese trabajo de hormiga es crítico porque la web es mucho menos estable de lo que creemos: investigaciones citadas por la BBC muestran que alrededor de un 25 por ciento de las páginas publicadas entre 2013 y 2023 han desaparecido, y solo unas pocas organizaciones —con Internet Archive a la cabeza— intentan salvar esos “ecos” digitales. El propio Internet Archive presume de haber reunido centenares de miles de millones de páginas web, decenas de millones de libros digitalizados y millones de vídeos y archivos de audio, un archivo sin equivalente en la historia cultural reciente.

Demandas, ataques y sentencias que asfixian

La utilidad pública de la Wayback Machine no la ha blindado frente a los tribunales. Desde 2020, el Internet Archive libra una batalla legal con grandes editoriales por su proyecto de biblioteca digital, Open Library, que escanea libros físicos y los presta de forma controlada a través de la red. Durante la pandemia, el archivo lanzó además la National Emergency Library, que relajó temporalmente esas restricciones para dar acceso masivo a libros mientras las bibliotecas físicas estaban cerradas, lo que disparó la reacción de los editores.

En marzo de 2023 un tribunal federal falló en contra del Internet Archive en el caso Hachette v. Internet Archive, concluyendo que su modelo de “préstamo digital controlado” vulneraba el copyright. En septiembre de 2024, el Tribunal de Apelaciones confirmó el fallo y rechazó el argumento de que se trataba de un uso transformador protegido por el “fair use”, lo que obliga al archivo a retirar cientos de miles de libros digitalizados y pone en cuestión la viabilidad de su biblioteca digital. La propia organización ha descrito esta ofensiva legal como una amenaza “existencial” para el Internet Archive y, por extensión, para la Wayback Machine.

A eso se suma la fragilidad técnica de una infraestructura que funciona con recursos limitados: en 2024 el Internet Archive sufrió una brecha de datos que expuso decenas de millones de registros de usuarios, seguida de un ataque de denegación de servicio distribuido (DDoS) que dejó la Wayback Machine durante semanas en modo solo lectura, con la herramienta “Save Page Now” desactivada temporalmente. El equipo priorizó proteger la integridad de los datos por encima de la disponibilidad, un recordatorio de que incluso un archivo pensado para durar décadas puede tambalearse en cuestión de días.

El miedo a la IA y el daño colateral

En paralelo a los tribunales, otro frente se abre desde los propios medios y plataformas que Internet Archive intenta preservar. La misma investigación de Originality AI que cita WIRED muestra que grandes grupos de noticias están bloqueando al bot de la Wayback Machine, en buena medida porque temen que sus contenidos terminen alimentando modelos generativos de IA sin compensación ni control. Reddit, por ejemplo, ha limitando qué puede guardar el archivo después de detectar que empresas de IA estaban extrayendo datos de versiones archivadas de sus foros.

El resultado es un daño colateral: al intentar frenar a los “aspiradores” de datos de IA que recorren la red, muchos sitios meten en el mismo saco a un archivo sin ánimo de lucro que solo pretende conservar copias para la memoria histórica. The Guardian ha optado por una solución más opaca: no bloquea al rastreador de Internet Archive, pero oculta parte de su contenido en la interfaz pública de la Wayback Machine, lo que dificulta que usuarios corrientes consulten versiones archivadas de sus artículos.

El riesgo de que el archivo acabe secuestrado

La paradoja de fondo es que mientras los grandes modelos de IA beben de décadas de contenidos abiertos, los propios espacios que hicieron posible esa riqueza —como el Internet Archive— se ven estrangulados por las batallas sobre quién captura el valor de los datos. Si las únicas instituciones capaces de mantener gigantescos archivos de la red son corporaciones tecnológicas, es probable que esos repositorios se conviertan en activos privados usados para entrenar sistemas cerrados, más que en bienes comunes al servicio de la ciudadanía.

Un archivo “secuestrado por la IA” no es solo aquel que se usa como cantera de entrenamiento sin permiso, sino también uno cuyas prioridades se rediseñan para servir a modelos y agentes, y no a investigadores, periodistas o ciudadanos. Eso implicaría que lo que se conserva, cómo se etiqueta y a qué se puede acceder estaría condicionado por las necesidades de sistemas automatizados y por contratos entre plataformas y editores, no por criterios de interés público o memoria histórica.

Cómo mantener un archivo público, abierto y libre

Que la Wayback Machine siga siendo gratuita y accesible para todos exige decisiones políticas, técnicas y económicas que no se pueden dejar solo en manos del propio Internet Archive. En el plano legal, bibliotecarios y juristas llevan años reclamando un marco más claro para el “préstamo digital controlado” y para las excepciones de archivo en las leyes de copyright, para que proyectos como el del Internet Archive no dependan de interpretaciones frágiles del “fair use”. La derrota de Hachette v. Internet Archive muestra los límites de esa estrategia, pero también ha reactivado el debate sobre si las bibliotecas deberían tener un derecho explícito a digitalizar y prestar obras que ya poseen físicamente.

En el ámbito técnico, una salida posible pasa por separar claramente el trato a los bots de archivo del de los bots de entrenamiento de IA. Hoy, muchos sitios se limitan a bloquear masivamente a través de robots.txt, pero nada impide definir normas específicas que permitan el acceso a rastreadores reconocidos de preservación —como ia_archiver— y, al mismo tiempo, cierren la puerta a los agentes comerciales de scraping y modelos generativos. Reddit y otros medios han empezado a negociar licencias directas con empresas de IA; convertir eso en una práctica estándar permitiría dejar de usar el bloqueo indiscriminado que también golpea a la Wayback Machine.

La financiación también importa: Internet Archive es una organización sin ánimo de lucro que depende de donaciones, subvenciones y apoyos institucionales. Tras los últimos reveses legales, el archivo ha lanzado campañas públicas que llaman a defenderlo y a apoyar económicamente su misión, alertando de que el litigio con las editoriales puede poner en riesgo tanto la biblioteca digital como la propia Wayback Machine. Un apoyo más estable por parte de universidades, bibliotecas nacionales y organismos públicos ayudaría a evitar que un recurso global dependa casi exclusivamente de la filantropía y la buena voluntad.

Una defensa compartida de la memoria digital

Si algo deja claro el reportaje de WIRED es que la Wayback Machine se ha vuelto incómoda precisamente porque funciona: al conservar versiones incómodas de webs oficiales, titulares que ya no interesan y documentos que alguien preferiría ver desaparecer, se convierte en una herramienta de rendición de cuentas. En un momento en que los gobiernos reescriben páginas, las empresas borran promesas y los modelos de IA sintetizan información sin mostrar fuentes, tener un archivo público verificable es una forma de resistencia cívica.

Proteger ese archivo implica que periodistas, académicos, bibliotecarios, tecnólogos y usuarios corrientes lo reivindiquen como lo que es: una infraestructura básica para la democracia y la cultura en la era digital, no un simple servicio “gratis” del que se puede prescindir. La pregunta ya no es solo si Internet Archive podrá seguir existiendo, sino si estaremos dispuestos a defender el derecho colectivo a recordar, frente a quienes prefieren que la red, y la IA que la explota, tengan memoria selectiva.