Super Mario Bros. de 1985 podría parecer un reto sencillo para cualquier IA que se precie de tener la mejor capacidad de procesamiento y ejecución, sin embargo, 40 años después un experimento de la Universidad de California demostró que el juego de Super Nintendo fue un desafío monumental para cuatro modelos de IA: Claude 3.5 y 3.7 de Anthropic, GPT-4o de OpenAI y Gemini 1.5 Pro de Google.
El experimento utilizó una versión emulada del clásico juego de Nintendo, integrada con un marco personalizado llamado GamingAgent, desarrollado por Hao Lab. Este sistema permitió a los modelos de IA controlar a Mario mediante la generación de código Python. Para guiar sus acciones, los modelos recibieron instrucciones básicas, como «Salta sobre ese enemigo», junto con visualizaciones de capturas de pantalla del estado del juego.
Cuando se trató de dominar Super Mario Bros., el mejor desempeño fue Claude 3.7 de Anthropic, que mostró reflejos impresionantes, encadenando saltos precisos y evitando hábilmente a los enemigos. Incluso su predecesor, Claude 3.5, funcionó bien.
Sorprendentemente, los modelos con mucho razonamiento como GPT-4o de OpenAI y Gemini 1.5 Pro de Google se quedaron atrás. A pesar de su reputación de fuertes habilidades de razonamiento, lucharon con las demandas del juego, probablemente tardaron demasiado en calcular sus próximos movimientos, lo que llevó a muertes frecuentes y prematuras.