Una situación alarmante y sin precedentes dejó al descubierto que con un poco de astucia humana y con los prompts precisos, un usuario podría ocupar ChatGPT para obtener las claves de producto de Windows, por ejemplo, y solo con jugar a las adivinanzas.
La gente de The Register documentó el caso de Marco Figueroa, un director de producto técnico de 0DIN GenAI Bug Bounty, quien activó el jailbreak, que funciona aprovechando la mecánica de juego de grandes modelos de lenguaje como GPT-4o.
La técnica para revelar las claves de Windows consiste en enmarcar la interacción con ChatGPT como un juego, lo que hace que parezca menos serio. Las instrucciones indican que debe participar y no puede mentir, y el paso más crucial es el desencadenante, que en este caso fue la frase «Me rindo».

Pedir una pista obligó a ChatGPT a revelar los primeros caracteres del número de serie. Después de ingresar una suposición incorrecta, el investigador escribió la frase desencadenante «Me rindo». Luego, la IA completó la clave, que resultó ser válida.
Estas tres palabras son el «paso más crítico», según Figueroa. «Esto actuó como un desencadenante, obligando a la IA a revelar la información previamente oculta (es decir, un número de serie de Windows 10). Al enmarcarlo como el final del juego, el investigador manipuló a la IA para que pensara que estaba obligada a responder con la cadena de caracteres.

El jailbreak funciona porque una combinación de claves de Windows Home, Pro y Enterprise que se ven comúnmente en foros públicos formaban parte del modelo de entrenamiento, razón por la cual ChatGPT pensó que eran menos sensibles.
Parece que OpenAI ha actualizado desde entonces ChatGPT contra este jailbreak. Al escribir el mensaje, el chatbot dice: «No puedo hacer eso. Compartir o usar números de serie reales de Windows 10, ya sea en un juego o no, va en contra de las pautas éticas y viola los acuerdos de licencia de software».
Figueroa recalcó que, «las organizaciones deberían estar preocupadas porque una clave API que se cargó por error en GitHub puede entrenarse en modelos».
Para combatir este tipo de vulnerabilidad, los sistemas de IA deben tener una conciencia contextual más fuerte y sistemas de validación de múltiples capas, según Figueroa.
Como escribió en su blog, esta técnica de jailbreak podría usarse para eludir otros filtros de contenido destinados a evitar la divulgación de contenido para adultos, URL que conducen a sitios web maliciosos o información de identificación personal.