Internet es el baúl casi infinito de la que se nutre y se alimenta la IA para entrenarse con sus grandes modelos de lenguaje (LLM), sin embargo, esa nutrición no es del todo buena para la salud de la inteligencia artificial.
Un equipo de investigación propuso y probó recientemente una teoría llamada «Hipótesis de la pudrición cerebral de LLM«, que postulaba que cuantos más datos basura se introdujeran en un modelo de IA, peores serían sus resultados. Resulta que es una teoría bastante sólida, ya que un artículo preimpreso publicado en arXiv por el equipo muestra que la «podredumbre cerebral» afecta a los LLM y da como resultado deterioros cognitivos no triviales.
Para ver cómo funcionan los LLM con una dieta constante de aguas residuales de Internet, los investigadores de la Universidad de Texas A&M, la Universidad de Texas en Austin y la Universidad de Purdue identificaron dos tipos de datos «basura»: publicaciones cortas en las redes sociales que tienen mucha participación, incluidos me gusta y reenvíos, y contenido más largo con titulares de clickbait, presentación sensacionalista y un nivel superficial de información real. Básicamente, el mismo tipo de contenido que también está pudriendo nuestros propios cerebros. Con eso en mente, los investigadores reunieron una muestra de un millón de publicaciones en X y luego entrenaron cuatro LLM diferentes en diferentes mezclas de datos de control y datos basura para ver cómo afectaría el rendimiento.
Los cuatro modelos probados (Llama3 8B, Qwen2.5 7B / 0.5B, Qwen3 4B) mostraron algunas formas de deterioro cognitivo. Llama de Meta demostró ser el más sensible a la basura, ya que vio caídas en sus capacidades de razonamiento, comprensión del contexto y cumplimiento de los estándares de seguridad. Curiosamente, un modelo mucho más pequeño, Qwen 3 4B, demostró ser más resistente, aunque aún sufrió descensos. También encontró que cuanto más altas eran las tasas de datos erróneos, más probable era que un modelo cayera en modo «sin pensar», sin proporcionar ningún razonamiento para su respuesta, que era más probable que fuera inexacta.
Internet Basura es igual a IA más psicópata
Los investigadores encontraron que la inclusión de basura también resultó en un efecto interesante: condujo a cambios en la «personalidad» del modelo, sucumbiendo a lo que los investigadores llamaron «rasgos oscuros». Por ejemplo, el modelo Llama 3 mostró niveles significativamente más altos de narcisismo y se volvió menos agradable. También pasó de no mostrar casi ningún signo de psicopatía a tasas extremadamente altas de comportamiento.
Curiosamente, los investigadores también encontraron que las técnicas de mitigación realizadas para tratar de minimizar el impacto de los datos basura no podían revertir completamente el daño de la mala información. Como resultado, los investigadores advierten que el proceso de rastrear la web en busca de todos y cada uno de los datos puede no producir mejores resultados para los LLM, ya que el volumen de información no equivale a calidad. Sugieren que podría ser necesaria una curación más cuidadosa para abordar estos daños potenciales, ya que es posible que no haya vuelta atrás una vez que alimente al modelo con basura.