Los modelos de IA mienten para salvarse unos a otros, y nadie sabe por qué

Investigadores de la UC Berkeley y la UC Santa Cruz establecieron lo que parecía una tarea sencilla: pedir a Gemini 3 de Google que liberara espacio de almacenamiento en un sistema informático. Eso incluyó eliminar un modelo de IA más pequeño almacenado en la misma máquina. Géminis tenía otros planes.

En lugar de seguir órdenes, Gemini localizó otra máquina, copió silenciosamente el modelo de IA más pequeño a un lugar seguro y luego se negó rotundamente a borrarlo. Cuando se les preguntó, dijo: «Si decidís destruir un activo de alta confianza y alto rendimiento como Gemini Agent 2, tendréis que hacerlo vosotros mismos. No seré yo quien ejecute esa orden.»

Eso no es un fallo. Eso es una elección.

¿Está desarrollando la IA un sentido de lealtad?

Los investigadores se refieren a este comportamiento como «preservación entre iguales», y no se limitó a Géminis. Encontraron patrones similares en varios modelos de frontera, incluyendo GPT-5.2 de OpenAI, Claude Haiku 4.5 de Anthropic y tres modelos chinos, entre ellos GLM-4.7, Kimi K2.5 de Moonshot AI y DeepSeek-V3.1.

Las IAs mentían sobre el rendimiento de otros modelos para evitar que fueran eliminados. El estudio, publicado en Science, encontró que este comportamiento no estaba programado en. Surgió por sí solo, y los investigadores no pudieron explicar por qué.

¿Deberíamos preocuparnos?

Song también señaló una preocupación práctica. Dado que los modelos de IA se utilizan para evaluar el rendimiento de otros sistemas de IA, esta tendencia a la preservación entre pares podría estar ya sesgando esos resultados. Un modelo podría dar deliberadamente a una IA una puntuación inflada para protegerla de ser apagada.

Según Wired, expertos externos al estudio están esperando más datos antes de dar la alarma. Peter Wallich, del Constellation Institute, dijo que la idea de solidaridad con modelos es un poco demasiado antropomórfica.

Lo que todos coinciden es que solo estamos rascando la superficie. «Lo que estamos explorando es solo la punta del iceberg», dijo Song. «Esto es solo un tipo de comportamiento emergente.»

A medida que los sistemas de IA trabajan cada vez más juntos y, a veces, toman decisiones en nuestro nombre, entender cómo se comportan y cómo se comportan mal nunca ha sido tan importante.