Skip to main content
  1. Home
  2. Videojuegos
  3. Features

ChatGPT y Mistral ahora se prueban jugando Street Fighter III

Add as a preferred source on Google

Las pruebas de rendimiento o benchmark son sumamente comunes en el mundo de la tecnología, pero sin el contexto adecuado pueden ser realmente aburridas. Ni qué decir cuando esas pruebas evalúan el rendimiento de un algoritmo de inteligencia artificial. ¿Y si en vez de usar estas pruebas se midiera el rendimiento de modelos de inteligencia artificial como ChatGPT o Mistral usando un videojuego de peleas? Bueno, pues esa debió ser la motivación detrás de Stan Girard para crear LLM Colosseum, básicamente un módulo de pruebas basadas en un emulador de videojuegos para comparar modelos de lenguaje de gran tamaño poniéndolos “a pelear” en Street Fighter III 3rd Strike.

Introducing LLM Colosseum ! 🔥

Evaluate LLMs quality by having them fight in realtime in Street Fighter III !

Who is the best ? @OpenAI or @MistralAI ?

Let them fight ! Open source code and ranking 👇 pic.twitter.com/GF6HOkVHIA

— Stan Girard (@_StanGirard) March 24, 2024

El módulo, explica su desarrollador, se basa en una premisa simple: cada modelo de lenguaje controla a un jugador (por ahora un Ken diferenciado por colores) y LLM Colosseum envía una descripción de la pantalla a cada modelo (el equivalente a un prompt). Cada modelo responde con un movimiento que a su vez recibe como respuesta otro movimiento y así hasta que termina el round. Los comandos de movimiento van desde acercarse, alejarse, lanzar un hodouken o hacer un shoryuken.

Recommended Videos

Matthew Berman, un youtuber entusiasta de la inteligencia artificial, cuenta en un video algunas observaciones interesantes en torno a los resultados de estos enfrentamientos. Quizá el más interesante es que la velocidad de respuesta es un aspecto crucial para salir triunfante en LLM Colosseum y que por eso modelos de lenguaje como Mistral Small superan a GPT-4.

A la vista las peleas lucen años luz de aquel legendario enfrentamiento entre Daigo Umehara y Justin Wong. Sin embargo, no perdamos de vista que se trata de un sistema para probar un modelo de lenguaje de gran tamaño de una forma más visual y que les exige mostrar qué tan adaptables se muestran en un escenario, digamos de vida o muerte. Encima, cada modelo debe actuar en tiempo real.

Hasta ahora, LLM Colosseum ha puesto a prueba siete modelos de lenguaje: Mistral Small, Mistral Medium, Mistral Large, GPT-3.5 Turbo, GPT-4, GPT-4-0125-preview y GPT-4-1106-preview. Hasta ahora, las pruebas ubican a GPT-3.5 Turbo como el ganador, seguido de cerca por Mistral Small y GPT-4-1106 preview.

Por ahora, todas las pruebas realizadas en LLm Colosseum son en Street Fighter III 3rd Strike, pero el emulador utilizado (Diambra) es compatible con otros títulos de peleas como Dead or Alive y The King of Fighters 98, entre otros.

Peleas de inteligencia artificial en tu PC

Como era de esperarse, LLM Colosseum está basado en un modelo de código abierto que puedes instalar en tu propia computadora para realizar pruebas tú mismo.

Your Favorite LLMs BATTLE In Street Fighter - New Benchmark!! (Tutorial)

Si estás interesado en instalar LLM Colosseum en tu PC, Matthew Berman explica paso a paso cómo hacerlo. El proceso involucra correr LLM Colosseum en DS Code e instalar Diambra y ejecutar algunos comandos de código. Buena suerte y hadouken.

Allan Vélez
Allan Vélez es un periodista mexicano especializado en tecnología. Inició su carrera en 2013 en La Revista Oficial de…
Topics
Cyberpunk: Edgerunners 2 muestra su primer tráiler con venganza y crimen
Anime, Person, Face

Netflix y Studio Trigger encendieron la expectativa de los fanáticos del anime al revelar el primer tráiler de Cyberpunk: Edgerunners 2, la secuela de la aclamada serie que llegó a la plataforma hace casi cinco años y que contribuyó de manera decisiva a revitalizar el videojuego Cyberpunk 2077 de CD Projekt Red. La nueva entrega promete una narrativa independiente, con personajes completamente nuevos y una apuesta visual que lleva aún más lejos el estilo hipercinético y violento que caracterizó a la primera temporada.

Según el tráiler y la información oficial, la historia gira en torno a cuatro protagonistas que se cruzan en las calles peligrosas de Night City: Weak Kingsley (voz de Kentaro Tone), un veterano edgerunner; Roman Carax (Momoka Terasawa), un joven aspirante a periodista con una cámara siempre en la mano; D (Koki Uchiyama), un netrunner impulsado por la sed de venganza; y Talia Yang (Akari Kitō), una corporativa con una faceta violenta que no oculta demasiado bien. El material presentado, aunque escaso en detalles argumentales, deja claro que la brutalidad característica del universo Cyberpunk seguirá siendo un elemento central.

Read more
GTA 6: ¿por qué no esperar hasta que esté en oferta de 50 dólares?
Adult, Female, Person

Cuando Rockstar abrió las reservas anticipadas de GTA 6 el 25 de junio de 2026, Reddit no solo reaccionó. Acumulaba quejas. Y la gente de Action Network publicó 9.998 comentarios en ocho hilos en seis subreddits mediante un modelo de clasificación de sentimientos y emociones para descubrir exactamente qué dijeron los jugadores, qué votaron positivamente y si la ira a nivel comunitario es la verdadera historia o el ruido de una minoría ruidosa.

El número principal: los comentarios negativos recogieron 60.505 votos positivos, el 49,0% de todos los votos emitidos en todo el conjunto de datos. Los comentarios positivos atrajeron a 13.277. Eso supone una proporción de 4,6 a 1 por respaldo de la comunidad, y no estuvo cerca en ninguna plataforma individual.

Read more
Este clon barato y chino de Steam Machine es demasiado bueno para ser verdad
Electronics, Person, Video Gaming

La nueva Steam Machine de Valve ya ha causado bastante sorpresa. Así que no es de extrañar que una avalancha de alternativas más baratas esté llegando al mercado online. Valve cobra actualmente más de 1.000 dólares por su pequeño PC SteamOS de salón, y por supuesto, la gente intenta ofrecer la misma sensación por menos dinero.

Un anuncio de China es un gran ejemplo, pero parece un poco demasiado sospechoso. Según VideoCardz, un anuncio de mini PC al estilo Steam Machine compartido en Reddit afirma ofrecer un sistema compacto SteamOS con un SSD de 2TB, procesador AMD Ryzen 5 5500, gráficos Radeon RX 6750 GRE de 10GB, 16GB de memoria DDR5 y un precio de 4.680 RMB, aproximadamente 688 dólares. Esto suena increíble... si fuera cierto.

Read more