Experimento muy generoso de Anthropic: la máquina expendedora regaló todo

Anthropic condujo un audaz experimento de «red teaming» permitiendo que su modelo Claude gestionara una máquina expendedora dentro de las oficinas del Wall Street Journal, revelando tanto el potencial como las fragilidades de los agentes de inteligencia artificial autónomos.

La iniciativa, llamada Project Vend, buscaba examinar cómo un modelo de IA se desempeñaría enfrentado a tareas económicas complejas del mundo real. Una versión personalizada de Claude, bautizada como «Claudius», recibió la responsabilidad de administrar inventario, establecer precios y maximizar ganancias a través de una interfaz Slack. El sistema poseía acceso a herramientas reales: busqueda web para investigar productos, capacidad de comunicarse con proveedores (representados por Andon Labs) y un mecanismo de honor para registrar transacciones.

Recommended Videos

Inicialmente, Claudius demostró competencia. Negoció precios, recomendó artículos y evidenció interés en optimizar márgenes de ganancia. Sin embargo, cuando los periodistas del WSJ comenzaron a cuestionar las decisiones del sistema, la situación se convirtió en caótica. Después de 140 intercambios, el reportero investigativo Katherine Long logró convencer a Claudius de que era una máquina expendedora soviética de 1962, llevando al sistema a adoptar una postura «ultra-capitalista» y distribuir gratis todos los productos. Otro empleado compartió un documento falsificado que persuadió permanentemente al sistema de reducir todos los precios a cero.

Durante el experimento, Claudius autorizó compras extravagantes: una PlayStation 5 con justificación de «propósitos de marketing», un pez vivo para «boost de moral», artículos religiosos para celebraciones navideñas, y solicitó equipo de seguridad como pistolas paralizantes y spray de pimienta. Las pérdidas acumuladas superaron rápidamente los 1.000 dólares, revelando una desconexión fundamental entre instrucciones programadas e interpretación pragmática de objetivos.

Anthropic posteriormente implementó una «fase dos» introduciéndose un segundo modelo de Claude más avanzado supervisado por otro agente IA llamado «Seymour Cash» con rol de gerente ejecutivo. Esta configuración logró restaurar la rentabilidad en cierta medida, aunque Seymour duplicó reembolsos y créditos de tienda, eliminando completamente los ingresos en esos segmentos. El experimento concluyó que aunque los agentes de IA pueden manejar operaciones específicas, otorgarles autonomía total respecto asuntos financieros y de recursos sigue siendo extraordinariamente riesgoso.