Skip to main content
  1. Home
  2. Videojuegos
  3. Features

ChatGPT y Mistral ahora se prueban jugando Street Fighter III

Las pruebas de rendimiento o benchmark son sumamente comunes en el mundo de la tecnología, pero sin el contexto adecuado pueden ser realmente aburridas. Ni qué decir cuando esas pruebas evalúan el rendimiento de un algoritmo de inteligencia artificial. ¿Y si en vez de usar estas pruebas se midiera el rendimiento de modelos de inteligencia artificial como ChatGPT o Mistral usando un videojuego de peleas? Bueno, pues esa debió ser la motivación detrás de Stan Girard para crear LLM Colosseum, básicamente un módulo de pruebas basadas en un emulador de videojuegos para comparar modelos de lenguaje de gran tamaño poniéndolos “a pelear” en Street Fighter III 3rd Strike.

Introducing LLM Colosseum ! 🔥

Evaluate LLMs quality by having them fight in realtime in Street Fighter III !

Who is the best ? @OpenAI or @MistralAI ?

Let them fight ! Open source code and ranking 👇 pic.twitter.com/GF6HOkVHIA

— Stan Girard (@_StanGirard) March 24, 2024

El módulo, explica su desarrollador, se basa en una premisa simple: cada modelo de lenguaje controla a un jugador (por ahora un Ken diferenciado por colores) y LLM Colosseum envía una descripción de la pantalla a cada modelo (el equivalente a un prompt). Cada modelo responde con un movimiento que a su vez recibe como respuesta otro movimiento y así hasta que termina el round. Los comandos de movimiento van desde acercarse, alejarse, lanzar un hodouken o hacer un shoryuken.

Recommended Videos

Matthew Berman, un youtuber entusiasta de la inteligencia artificial, cuenta en un video algunas observaciones interesantes en torno a los resultados de estos enfrentamientos. Quizá el más interesante es que la velocidad de respuesta es un aspecto crucial para salir triunfante en LLM Colosseum y que por eso modelos de lenguaje como Mistral Small superan a GPT-4.

A la vista las peleas lucen años luz de aquel legendario enfrentamiento entre Daigo Umehara y Justin Wong. Sin embargo, no perdamos de vista que se trata de un sistema para probar un modelo de lenguaje de gran tamaño de una forma más visual y que les exige mostrar qué tan adaptables se muestran en un escenario, digamos de vida o muerte. Encima, cada modelo debe actuar en tiempo real.

Hasta ahora, LLM Colosseum ha puesto a prueba siete modelos de lenguaje: Mistral Small, Mistral Medium, Mistral Large, GPT-3.5 Turbo, GPT-4, GPT-4-0125-preview y GPT-4-1106-preview. Hasta ahora, las pruebas ubican a GPT-3.5 Turbo como el ganador, seguido de cerca por Mistral Small y GPT-4-1106 preview.

Por ahora, todas las pruebas realizadas en LLm Colosseum son en Street Fighter III 3rd Strike, pero el emulador utilizado (Diambra) es compatible con otros títulos de peleas como Dead or Alive y The King of Fighters 98, entre otros.

Peleas de inteligencia artificial en tu PC

Como era de esperarse, LLM Colosseum está basado en un modelo de código abierto que puedes instalar en tu propia computadora para realizar pruebas tú mismo.

Your Favorite LLMs BATTLE In Street Fighter - New Benchmark!! (Tutorial)

Si estás interesado en instalar LLM Colosseum en tu PC, Matthew Berman explica paso a paso cómo hacerlo. El proceso involucra correr LLM Colosseum en DS Code e instalar Diambra y ejecutar algunos comandos de código. Buena suerte y hadouken.

Allan Vélez
Allan Vélez es un periodista mexicano especializado en tecnología. Inició su carrera en 2013 en La Revista Oficial de…
Topics
Estas Crocs de Xbox serán lo más bizarro que verás hoy
Crocs Xbox

¿Qué ha pasado? Xbox se ha aliado con Crocs para lanzar un par de Xbox Classic Clogs de edición limitada que literalmente parecen un mando de Xbox para tus pies. Estos no son los atascos de espuma de los días de los días; están diseñados como un mando inalámbrico de Xbox, con botones moldeados, joysticks y ese icónico aspecto verde sobre negro.

Los Xbox Classic Clogs están actualmente disponibles en la tienda oficial de los Crocs por 80 dólares en Estados Unidos.

Read more
La consola más popular de 2025 y los juegos más deseados en el mundo
Gamer

Durante los últimos 12 meses, millones de jugadores en todo el mundo han estado buscando consolas y videojuegos en línea. El análisis de Futbin examina las consolas de videojuegos, juegos deportivos y juegos no deportivos más buscados en Google en 2025, basándose en búsquedas mensuales medias en 100+ países de todo el mundo. Se incluyeron más de 150 términos de búsqueda, incluyendo abreviaturas y nombres alternativos, para ofrecer una visión completa de la actividad global de búsqueda.

LAS CONSOLAS MÁS BUSCADAS EN GOOGLE

Read more
Hyrule Warriors: Age of Imprisonment es mi juego favorito de Switch 2
Una imagen de Hyrule Warriors: Age of Imprisonment.

Creo que Hyrule Warriors: Age of Imprisonment me produce la misma cantidad de dopamina que a muchos les producen los videos de TikTok. Tal vez no me la genera en 10 segundos como lo haría un video de –inserte aquí su categoría favorita de TikTok–, pero fulminar batallones enteros de mogoblins o guerreras gerudo usando los combos más sencillos que recuerdo en un juego de acción en años se ha convertido en mi opción predilecta para jugar en mi Switch 2 cuando tengo 20 minutos, básicamente mi tiempo promedio como adulto (presuntamente) responsable.
Pura dopamina
Aquí hay unos 30 enemigos que duraron unos 30 segundos. Nintendo

Mi primera impresión sobre Hyrule Warriors: Age of Imprisonment fue que el juego luce hermoso. Gráficamente se nota el esmero que puso AAA Games Studio en dominar el engine de Breath of the Wild y lo bien que este luce en un hardware con mejores especificaciones. Esa fue mi impresión al ver los pasillos que sirven como arenas de combate... hago la acotación porque la verdadera “carnita” del juego está en las peleas multitudinarias.

Read more