Skip to main content

ChatGPT y Mistral ahora se prueban jugando Street Fighter III

Las pruebas de rendimiento o benchmark son sumamente comunes en el mundo de la tecnología, pero sin el contexto adecuado pueden ser realmente aburridas. Ni qué decir cuando esas pruebas evalúan el rendimiento de un algoritmo de inteligencia artificial. ¿Y si en vez de usar estas pruebas se midiera el rendimiento de modelos de inteligencia artificial como ChatGPT o Mistral usando un videojuego de peleas? Bueno, pues esa debió ser la motivación detrás de Stan Girard para crear LLM Colosseum, básicamente un módulo de pruebas basadas en un emulador de videojuegos para comparar modelos de lenguaje de gran tamaño poniéndolos “a pelear” en Street Fighter III 3rd Strike.

Introducing LLM Colosseum ! 🔥

Evaluate LLMs quality by having them fight in realtime in Street Fighter III !

Who is the best ? @OpenAI or @MistralAI ?

Let them fight ! Open source code and ranking 👇 pic.twitter.com/GF6HOkVHIA

— Stan Girard (@_StanGirard) March 24, 2024

El módulo, explica su desarrollador, se basa en una premisa simple: cada modelo de lenguaje controla a un jugador (por ahora un Ken diferenciado por colores) y LLM Colosseum envía una descripción de la pantalla a cada modelo (el equivalente a un prompt). Cada modelo responde con un movimiento que a su vez recibe como respuesta otro movimiento y así hasta que termina el round. Los comandos de movimiento van desde acercarse, alejarse, lanzar un hodouken o hacer un shoryuken.

Matthew Berman, un youtuber entusiasta de la inteligencia artificial, cuenta en un video algunas observaciones interesantes en torno a los resultados de estos enfrentamientos. Quizá el más interesante es que la velocidad de respuesta es un aspecto crucial para salir triunfante en LLM Colosseum y que por eso modelos de lenguaje como Mistral Small superan a GPT-4.

A la vista las peleas lucen años luz de aquel legendario enfrentamiento entre Daigo Umehara y Justin Wong. Sin embargo, no perdamos de vista que se trata de un sistema para probar un modelo de lenguaje de gran tamaño de una forma más visual y que les exige mostrar qué tan adaptables se muestran en un escenario, digamos de vida o muerte. Encima, cada modelo debe actuar en tiempo real.

Hasta ahora, LLM Colosseum ha puesto a prueba siete modelos de lenguaje: Mistral Small, Mistral Medium, Mistral Large, GPT-3.5 Turbo, GPT-4, GPT-4-0125-preview y GPT-4-1106-preview. Hasta ahora, las pruebas ubican a GPT-3.5 Turbo como el ganador, seguido de cerca por Mistral Small y GPT-4-1106 preview.

Por ahora, todas las pruebas realizadas en LLm Colosseum son en Street Fighter III 3rd Strike, pero el emulador utilizado (Diambra) es compatible con otros títulos de peleas como Dead or Alive y The King of Fighters 98, entre otros.

Peleas de inteligencia artificial en tu PC

Como era de esperarse, LLM Colosseum está basado en un modelo de código abierto que puedes instalar en tu propia computadora para realizar pruebas tú mismo.

Your Favorite LLMs BATTLE In Street Fighter - New Benchmark!! (Tutorial)

Si estás interesado en instalar LLM Colosseum en tu PC, Matthew Berman explica paso a paso cómo hacerlo. El proceso involucra correr LLM Colosseum en DS Code e instalar Diambra y ejecutar algunos comandos de código. Buena suerte y hadouken.

Topics
Allan Vélez
Allan Vélez es un periodista mexicano especializado en tecnología. Inició su carrera en 2013 en La Revista Oficial de…
Kingdom Come: Deliverance 2 llegará este año y es dos veces más grande
kingdom come deliverance 2 2024

Warhorse Studios y Deep Silver finalmente anunciaron Kingdom Come: Deliverance 2, una secuela de un popular juego de rol de 2018 que ganó notoriedad por basarse en un mundo medieval realista.

Kingdom Come: Deliverance 2 sigue la historia de Henry, una vez más interpretado por Tom McKay, quien sigue buscando venganza tras el asesinato de su familia. Warhorse dice que esta secuela cuenta con más de cinco horas de escenas y un mundo abierto que es dos veces más grande que el original.

Leer más
Después de Fallout de Amazon, estos juegos merecen adaptaciones televisivas a continuación
despues de fallout amazon estos juegos merecen adaptaciones televisivas

Amazon
Hay algo en los videojuegos postapocalípticos que los hace perfectos para las adaptaciones. Fallout, The Last of Us y Twisted Metal tienen ese tipo de ambientación y han sido algunas de las adaptaciones de videojuegos más populares de la historia. Tal vez sea porque el apocalipsis proporciona una caja de arena tan rica para jugar, o tal vez sea porque ese tipo de escenario obliga a los personajes a tomar decisiones difíciles, pero es el tipo de escenario que hace que tanto los juegos como la televisión sean buenos.

Ahora que las adaptaciones de videojuegos como estas han sido éxitos masivos, Hollywood probablemente comenzará a mirar qué otros videojuegos postapocalípticos están listos para la adaptación. Algunos ya están en proceso: Death Stranding, The Division, Days Gone y Horizon Zero Dawn tienen adaptaciones en desarrollo, pero aquí hay cinco más que me gustaría ver.
Metro

Leer más
¿Qué es Twitch? Te contamos todo lo que necesitas saber
¿Qué es Twitch?

Las transmisiones de Twitch y los videojuegos van de la mano: le dan a millones de espectadores y presentadores una forma de interactuar y compartir contenido creativo con otras personas. Las transmisiones en vivo han crecido en popularidad de manera reciente, y Twitch es la plataforma más utilizada para mostrar videojuegos. Pero, ¿qué es exactamente Twitch? ¿Cómo funciona? En este artículo te contaremos todo lo que necesitas saber sobre la plataforma.
¿Qué es Twitch?

Fundada en 2011, Twitch es una plataforma para transmitir videos en vivo. Puedes ver casi cualquier contenido que se te ocurra, como videos de cocina, música, sesiones de preguntas y respuestas, y más, pero el principal impulsor de tráfico son los videojuegos.

Leer más