Skip to main content

ChatGPT y Mistral ahora se prueban jugando Street Fighter III

Las pruebas de rendimiento o benchmark son sumamente comunes en el mundo de la tecnología, pero sin el contexto adecuado pueden ser realmente aburridas. Ni qué decir cuando esas pruebas evalúan el rendimiento de un algoritmo de inteligencia artificial. ¿Y si en vez de usar estas pruebas se midiera el rendimiento de modelos de inteligencia artificial como ChatGPT o Mistral usando un videojuego de peleas? Bueno, pues esa debió ser la motivación detrás de Stan Girard para crear LLM Colosseum, básicamente un módulo de pruebas basadas en un emulador de videojuegos para comparar modelos de lenguaje de gran tamaño poniéndolos “a pelear” en Street Fighter III 3rd Strike.

Introducing LLM Colosseum ! 🔥

Evaluate LLMs quality by having them fight in realtime in Street Fighter III !

Who is the best ? @OpenAI or @MistralAI ?

Let them fight ! Open source code and ranking 👇 pic.twitter.com/GF6HOkVHIA

— Stan Girard (@_StanGirard) March 24, 2024

El módulo, explica su desarrollador, se basa en una premisa simple: cada modelo de lenguaje controla a un jugador (por ahora un Ken diferenciado por colores) y LLM Colosseum envía una descripción de la pantalla a cada modelo (el equivalente a un prompt). Cada modelo responde con un movimiento que a su vez recibe como respuesta otro movimiento y así hasta que termina el round. Los comandos de movimiento van desde acercarse, alejarse, lanzar un hodouken o hacer un shoryuken.

Recommended Videos

Matthew Berman, un youtuber entusiasta de la inteligencia artificial, cuenta en un video algunas observaciones interesantes en torno a los resultados de estos enfrentamientos. Quizá el más interesante es que la velocidad de respuesta es un aspecto crucial para salir triunfante en LLM Colosseum y que por eso modelos de lenguaje como Mistral Small superan a GPT-4.

A la vista las peleas lucen años luz de aquel legendario enfrentamiento entre Daigo Umehara y Justin Wong. Sin embargo, no perdamos de vista que se trata de un sistema para probar un modelo de lenguaje de gran tamaño de una forma más visual y que les exige mostrar qué tan adaptables se muestran en un escenario, digamos de vida o muerte. Encima, cada modelo debe actuar en tiempo real.

Hasta ahora, LLM Colosseum ha puesto a prueba siete modelos de lenguaje: Mistral Small, Mistral Medium, Mistral Large, GPT-3.5 Turbo, GPT-4, GPT-4-0125-preview y GPT-4-1106-preview. Hasta ahora, las pruebas ubican a GPT-3.5 Turbo como el ganador, seguido de cerca por Mistral Small y GPT-4-1106 preview.

Por ahora, todas las pruebas realizadas en LLm Colosseum son en Street Fighter III 3rd Strike, pero el emulador utilizado (Diambra) es compatible con otros títulos de peleas como Dead or Alive y The King of Fighters 98, entre otros.

Peleas de inteligencia artificial en tu PC

Como era de esperarse, LLM Colosseum está basado en un modelo de código abierto que puedes instalar en tu propia computadora para realizar pruebas tú mismo.

Your Favorite LLMs BATTLE In Street Fighter - New Benchmark!! (Tutorial)

Si estás interesado en instalar LLM Colosseum en tu PC, Matthew Berman explica paso a paso cómo hacerlo. El proceso involucra correr LLM Colosseum en DS Code e instalar Diambra y ejecutar algunos comandos de código. Buena suerte y hadouken.

Topics
Allan Vélez
Allan Vélez es un periodista mexicano especializado en tecnología. Inició su carrera en 2013 en La Revista Oficial de…
Playstation 5: actualización de aniversario trae un clásico de regreso
playstation 5 pantalla arranque clasico actualizacion aniversario presentaci  n

Playstation está cumpliendo 30 años y para celebrarlo está llevando a la PS5 una actualización especial de aniversario, que para sorpresa de los usuarios, está trayendo de regreso a un verdadero clásico.

Se trata de la pantalla clásica de arranque de los juegos de Playstation.

Leer más
Filtran la «económica» Lenovo Legion Go S
filtran lenovo legion go s

Una versión más barata de la Lenovo Legion Go es la que se acaba de filtrar en línea, y que muestran un modelo con especificaciones más básicas.

Se espera que el Lenovo Legion Go S utilice la nueva plataforma AMD Ryzen Z2, en particular su configuración Z2G "Rembrandt". Esto contribuiría a la idea de que se supone que el Lenovo Legion Go S es una opción más asequible. De hecho, ha eliminado muchas de las "campanas y silbatos" del Lenovo Legion Go, eliminando los sticks desmontables, el pie de apoyo y los botones traseros adicionales para un perfil más parecido al ASUS ROG Ally.

Leer más
La nueva GPU de Intel de $ 249 lleva los juegos de 1440p a las masas
intel gpu arc b580

Intel está tratando de redefinir lo que realmente significa una "GPU económica" en 2024, y lo está haciendo con la nueva GPU Arc B580. En lo que la propia Intel describió como su "secreto peor guardado", la B580 es la primera tarjeta gráfica de la nueva gama Battlemage de GPU discretas de Intel, y llega a un precio de sólo 249 dólares. Ese es un precio que ha sido relegado a 1080p durante décadas, pero Intel dice que el B580 cambiará esa dinámica.

Es una GPU de 1440p, al menos según la definición de Intel. Eso es a pesar de que Intel está comparando la tarjeta con GPU como la RTX 4060 y la RX 7600, las cuales son más caras que la B580 y apuntan directamente a 1080p. Intel dice que puede ofrecer un rendimiento más alto que estas dos GPU mientras rebaja el precio, todo en un intento de capitalizar a los jugadores de 1440p. "1440p se está convirtiendo en 1080p", como dijo Tom Petersen de Intel en una sesión informativa previa con la prensa.
Intel
¿Cuánto más rápido? Según las métricas de Intel, la B580 es un 10% más rápida que la RTX 4060 de media -Intel no ha proporcionado ninguna comparación de rendimiento con la RX 7600-. Puede que no parezca enorme, pero hay un puñado de juegos en los que el B580 parece muy impresionante. En Cyberpunk 2077, por ejemplo, el B580 es un 43% más rápido, y en Resident Evil 4, es un 32% más rápido.

Leer más