Skip to main content

ChatGPT y Mistral ahora se prueban jugando Street Fighter III

Las pruebas de rendimiento o benchmark son sumamente comunes en el mundo de la tecnología, pero sin el contexto adecuado pueden ser realmente aburridas. Ni qué decir cuando esas pruebas evalúan el rendimiento de un algoritmo de inteligencia artificial. ¿Y si en vez de usar estas pruebas se midiera el rendimiento de modelos de inteligencia artificial como ChatGPT o Mistral usando un videojuego de peleas? Bueno, pues esa debió ser la motivación detrás de Stan Girard para crear LLM Colosseum, básicamente un módulo de pruebas basadas en un emulador de videojuegos para comparar modelos de lenguaje de gran tamaño poniéndolos “a pelear” en Street Fighter III 3rd Strike.

Introducing LLM Colosseum ! 🔥

Evaluate LLMs quality by having them fight in realtime in Street Fighter III !

Who is the best ? @OpenAI or @MistralAI ?

Let them fight ! Open source code and ranking 👇 pic.twitter.com/GF6HOkVHIA

— Stan Girard (@_StanGirard) March 24, 2024

El módulo, explica su desarrollador, se basa en una premisa simple: cada modelo de lenguaje controla a un jugador (por ahora un Ken diferenciado por colores) y LLM Colosseum envía una descripción de la pantalla a cada modelo (el equivalente a un prompt). Cada modelo responde con un movimiento que a su vez recibe como respuesta otro movimiento y así hasta que termina el round. Los comandos de movimiento van desde acercarse, alejarse, lanzar un hodouken o hacer un shoryuken.

Recommended Videos

Matthew Berman, un youtuber entusiasta de la inteligencia artificial, cuenta en un video algunas observaciones interesantes en torno a los resultados de estos enfrentamientos. Quizá el más interesante es que la velocidad de respuesta es un aspecto crucial para salir triunfante en LLM Colosseum y que por eso modelos de lenguaje como Mistral Small superan a GPT-4.

A la vista las peleas lucen años luz de aquel legendario enfrentamiento entre Daigo Umehara y Justin Wong. Sin embargo, no perdamos de vista que se trata de un sistema para probar un modelo de lenguaje de gran tamaño de una forma más visual y que les exige mostrar qué tan adaptables se muestran en un escenario, digamos de vida o muerte. Encima, cada modelo debe actuar en tiempo real.

Hasta ahora, LLM Colosseum ha puesto a prueba siete modelos de lenguaje: Mistral Small, Mistral Medium, Mistral Large, GPT-3.5 Turbo, GPT-4, GPT-4-0125-preview y GPT-4-1106-preview. Hasta ahora, las pruebas ubican a GPT-3.5 Turbo como el ganador, seguido de cerca por Mistral Small y GPT-4-1106 preview.

Por ahora, todas las pruebas realizadas en LLm Colosseum son en Street Fighter III 3rd Strike, pero el emulador utilizado (Diambra) es compatible con otros títulos de peleas como Dead or Alive y The King of Fighters 98, entre otros.

Peleas de inteligencia artificial en tu PC

Como era de esperarse, LLM Colosseum está basado en un modelo de código abierto que puedes instalar en tu propia computadora para realizar pruebas tú mismo.

Your Favorite LLMs BATTLE In Street Fighter - New Benchmark!! (Tutorial)

Si estás interesado en instalar LLM Colosseum en tu PC, Matthew Berman explica paso a paso cómo hacerlo. El proceso involucra correr LLM Colosseum en DS Code e instalar Diambra y ejecutar algunos comandos de código. Buena suerte y hadouken.

Topics
Allan Vélez
Allan Vélez es un periodista mexicano especializado en tecnología. Inició su carrera en 2013 en La Revista Oficial de…
Todo anunciado en el Annapurna Interactive Showcase 2025
annapurna interactive showcase 2025 skin deep

Annapurna Interactive llevó a cabo una presentación digital hoy, dando actualizaciones sobre su conjunto de próximos indies. La presentación cubrió nueve juegos en total y reveló las fechas de lanzamiento de primavera para To a T, Lushfoil Photography Sim y Skin Deep.

La presentación de hoy ofrece mucha claridad para el Annapurna, que pasó por una reestructuración sorpresa en septiembre después de que todo su personal renunciara. La presentación confirma que los juegos en los que estaba trabajando siguen progresando con normalidad, y algunos llegarán en los próximos meses. Cabe destacar que no se mostraron nuevos juegos y tampoco pudimos echar un vistazo al misterioso juego de Blade Runner del estudio, del que no hemos tenido noticias desde que se reveló hace dos años.

Leer más
Una mujer adicta a Candy Crush recibió una millonaria indemnización
curiosidades del juego Candy Crush

El Servicio Nacional de Salud de Reino Unido (NHS, por sus siglas en inglés) pagó una compensación de seis cifras a una mujer no identificada después de que desarrollara una adicción paralizante a Candy Crush después de que los efectos secundarios de un medicamento recetado afectaran su control de impulsos.
El medicamento (destinado a tratar el síndrome de piernas inquietas y la enfermedad de Parkinson) pertenece a una clase de fármacos conocidos como agonistas de la dopamina. La dopamina es un neurotransmisor responsable de los sentimientos de recompensa, y el aumento artificial causado por estas drogas puede hacer que alguien busque más, y eso es algo en lo que los juegos móviles sobresalen.
Las pequeñas recompensas, como abrir una caja de botín, recibir un nuevo objeto o simplemente terminar un nivel, generan un impulso de dopamina en el cerebro. A las pocas semanas de su receta, la mujer comenzó a jugar "obsesivamente" a Candy Crush antes de progresar a los juegos de máquinas tragamonedas virtuales.
Desde entonces, el NHS ha admitido que su médico de cabecera no le advirtió de los efectos secundarios y le recetó una dosis del doble de la recomendada. Desde entonces, el NHS le ha concedido 170.000 libras esterlinas (unos 215.000 dólares) en compensación.

Rey

Leer más
Todo lo anunciado en ID@Xbox Showcase de febrero de 2025
idxbox showcase febrero 2025 lie of p

Hoy se llevó a cabo el ID@Xbox Showcase, mostrando una gran cantidad de juegos diferentes, varios estrenos mundiales e incluso una nueva expansión de Balatro, inspirada en algunas de sus franquicias favoritas de Xbox.

The Showcase fue particularmente pesado en roguelikes, mostrando varios juegos como el Ratatan basado en el ritmo y el Echo Loop centrado en la acción. Sigue leyendo para descubrir todo lo anunciado, incluidos un par de juegos inesperados de desarrolladores clásicos.
Revenge of the Savage Planet llegará el 8 de mayo
Revenge of the Savage Planet - Official Trailer | ID@Xbox

Leer más