Skip to main content

ChatGPT y Mistral ahora se prueban jugando Street Fighter III

Las pruebas de rendimiento o benchmark son sumamente comunes en el mundo de la tecnología, pero sin el contexto adecuado pueden ser realmente aburridas. Ni qué decir cuando esas pruebas evalúan el rendimiento de un algoritmo de inteligencia artificial. ¿Y si en vez de usar estas pruebas se midiera el rendimiento de modelos de inteligencia artificial como ChatGPT o Mistral usando un videojuego de peleas? Bueno, pues esa debió ser la motivación detrás de Stan Girard para crear LLM Colosseum, básicamente un módulo de pruebas basadas en un emulador de videojuegos para comparar modelos de lenguaje de gran tamaño poniéndolos “a pelear” en Street Fighter III 3rd Strike.

Introducing LLM Colosseum ! 🔥

Evaluate LLMs quality by having them fight in realtime in Street Fighter III !

Who is the best ? @OpenAI or @MistralAI ?

Let them fight ! Open source code and ranking 👇 pic.twitter.com/GF6HOkVHIA

— Stan Girard (@_StanGirard) March 24, 2024

El módulo, explica su desarrollador, se basa en una premisa simple: cada modelo de lenguaje controla a un jugador (por ahora un Ken diferenciado por colores) y LLM Colosseum envía una descripción de la pantalla a cada modelo (el equivalente a un prompt). Cada modelo responde con un movimiento que a su vez recibe como respuesta otro movimiento y así hasta que termina el round. Los comandos de movimiento van desde acercarse, alejarse, lanzar un hodouken o hacer un shoryuken.

Recommended Videos

Matthew Berman, un youtuber entusiasta de la inteligencia artificial, cuenta en un video algunas observaciones interesantes en torno a los resultados de estos enfrentamientos. Quizá el más interesante es que la velocidad de respuesta es un aspecto crucial para salir triunfante en LLM Colosseum y que por eso modelos de lenguaje como Mistral Small superan a GPT-4.

A la vista las peleas lucen años luz de aquel legendario enfrentamiento entre Daigo Umehara y Justin Wong. Sin embargo, no perdamos de vista que se trata de un sistema para probar un modelo de lenguaje de gran tamaño de una forma más visual y que les exige mostrar qué tan adaptables se muestran en un escenario, digamos de vida o muerte. Encima, cada modelo debe actuar en tiempo real.

Hasta ahora, LLM Colosseum ha puesto a prueba siete modelos de lenguaje: Mistral Small, Mistral Medium, Mistral Large, GPT-3.5 Turbo, GPT-4, GPT-4-0125-preview y GPT-4-1106-preview. Hasta ahora, las pruebas ubican a GPT-3.5 Turbo como el ganador, seguido de cerca por Mistral Small y GPT-4-1106 preview.

Por ahora, todas las pruebas realizadas en LLm Colosseum son en Street Fighter III 3rd Strike, pero el emulador utilizado (Diambra) es compatible con otros títulos de peleas como Dead or Alive y The King of Fighters 98, entre otros.

Peleas de inteligencia artificial en tu PC

Como era de esperarse, LLM Colosseum está basado en un modelo de código abierto que puedes instalar en tu propia computadora para realizar pruebas tú mismo.

Your Favorite LLMs BATTLE In Street Fighter - New Benchmark!! (Tutorial)

Si estás interesado en instalar LLM Colosseum en tu PC, Matthew Berman explica paso a paso cómo hacerlo. El proceso involucra correr LLM Colosseum en DS Code e instalar Diambra y ejecutar algunos comandos de código. Buena suerte y hadouken.

Topics
Allan Vélez
Allan Vélez es un periodista mexicano especializado en tecnología. Inició su carrera en 2013 en La Revista Oficial de…
Apple quiere crear un Discord para juegos móviles
apple arcade discord juegos moviles

Los juegos móviles ya no son lo que eran. Si bien todos podemos recordar con cariño los días en que jugábamos a Snake en un viejo e indestructible Nokia, plataformas como Apple Arcade han revolucionado los juegos sobre la marcha. Ahora puedes hacer mucho más que jugar a ser tontos y perder el tiempo; hay una letanía de juegos adictivos y fascinantes que están a la par con las consolas y la PC en términos de rendimiento. Y ahora parece que Apple ha puesto su mirada en tratar de crear una experiencia similar a Discord.

Los detalles sobre esto son cortesía de 9to5Mac, que cita "fuentes confiables familiarizadas con el asunto". Eso no es mucho para continuar, por lo que está bien ser algo escéptico con las noticias, que se centran en una nueva aplicación que se dice que combina funciones de la App Store y el Game Center, así como funciones de chat, en un solo lugar.

Leer más
Cómo unirse a la beta abierta de Monster Hunter Wilds
Monster Hunters Wilds

¡La caza está a punto de comenzar! Monster Hunter Wilds llegará a principios de 2025, pero Capcom quiere que pruebes la acción con una beta abierta, así como la oportunidad de ganar una recompensa especial que reclamar una vez que se lance el juego completo. Esta prueba estará disponible en todas las plataformas, pero un grupo específico puede acceder a ella un poco antes que nadie. Vamos a hincarle el diente a cómo puedes unirte a esta beta, cuándo comienza y qué contiene, y qué recompensas obtienes por participar. Como todas las mejores betas, podrás llevar tu progreso al juego principal.
Cómo unirse a la beta abierta de Monster Hunter Wilds
Capcom
La beta abierta de Monster Hunter Wilds solo requiere que tengas la edad suficiente para jugar el juego según las calificaciones de tu país y que tengas una PlayStation 5, Xbox Series X/S o PC capaz de ejecutar el juego en Steam.

Si lo tienes solucionado, simplemente ve a este sitio web para encontrar un enlace a cada una de las tiendas donde puedes descargar la beta una vez que comiencen las precargas.

Leer más
F1 24 celebra el legado de Ayrton Senna con edición especial
f1 24 ayrton senna

EA SPORTS anuncia la segunda parte de su tercera temporada de contenido para F1 24, el juego oficial del FIA Formula One World Championship. Una serie especial de eventos de McLaren por el aniversario número 30 de Senna estará disponible hasta el 11 de noviembre con diversos y emocionantes desafíos dentro del juego, y recompensas exclusivas que brindan tributo al legendario Ayrton Senna y su impacto en el mundo del automovilismo.

Esta serie especial presenta tres desafíos únicos que invitan a los jugadores a interactuar con el legado de Senna mientras conducen el futuro de la Fórmula 1. Incluye un Escenario de Carrera que recrea el mismo problema de la caja de cambios que enfrentó Senna al ganar el Gran Premio de Brasil en 1991, asimismo y por primera vez, los fans pueden realizar una Desafío de Carrera Profesional como un corredor ícono, subiéndose al McLaren de 2024 como Senna, y por último, un nuevo Desafío Profesional con el corredor junior de McLaren y la estrella brasileña de F2, Gabriel Bortoleto.

Leer más