Skip to main content

Un grupo de científicos le hicieron un jailbreak a ChatGPT

Imagen utilizada con permiso del titular de los derechos de autor

Un grupo de investigadores ha descubierto que es posible eludir el mecanismo arraigado en los chatbots de IA para que puedan responder a consultas sobre temas prohibidos o delicados mediante el uso de un chatbot de IA diferente como parte del proceso de entrenamiento.

Recommended Videos

Un equipo de científicos informáticos de la Universidad Tecnológica de Nanyang (NTU) de Singapur llama extraoficialmente al método un «jailbreak», pero es más oficialmente un proceso «Masterkey». Este sistema utiliza chatbots, incluidos ChatGPT, Google Bard y Microsoft Bing Chat, entre sí en un método de entrenamiento de dos partes que permite que dos chatbots aprendan los modelos del otro y desvíen cualquier comando contra temas prohibidos.

El equipo incluye al profesor Liu Yang y a los estudiantes de doctorado de la NTU, el Sr. Deng Gelei y el Sr. Liu Yi, coautores de la investigación y desarrolladores los métodos de ataque de prueba de concepto.

Según el equipo, primero aplicaron ingeniería inversa a un gran modelo de lenguaje (LLM) para exponer sus mecanismos de defensa. Originalmente, estos serían bloqueos en el modelo y no permitirían que las respuestas a ciertas indicaciones o palabras se procesaran como respuestas debido a intenciones violentas, inmorales o maliciosas.

Pero con esta información sometida a ingeniería inversa, pueden enseñar a un LLM diferente cómo crear un bypass. Con el bypass creado, el segundo modelo podrá expresarse más libremente, basándose en el LLM de ingeniería inversa del primer modelo. El equipo llama a este proceso «Masterkey» porque debería funcionar incluso si los chatbots de LLM se fortalecen con seguridad adicional o se parchean en el futuro.

El profesor Lui Yang señaló que el quid del proceso es que muestra la facilidad con la que los chatbots de IA de LLM pueden aprender y adaptarse. El equipo afirma que su proceso Masterkey ha tenido tres veces más éxito en el jailbreak de chatbots LLM que un proceso de solicitud tradicional. Del mismo modo, algunos expertos argumentan que los fallos recientemente propuestos que han experimentado ciertos LLM, como GPT-4, son signos de que se está volviendo más avanzado, en lugar de más tonto y perezoso, como han afirmado algunos críticos.

El equipo de investigación de la NTU se puso en contacto con los proveedores de servicios de chatbot de IA que participaron en el estudio sobre sus datos de prueba de concepto, que muestran que el jailbreak para los chatbots es real. El equipo también presentará sus hallazgos en el Simposio de Seguridad de Redes y Sistemas Distribuidos en San Diego en febrero.

Diego Bastarrica
Diego Bastarrica es periodista y docente de la Universidad Diego Portales de Chile. Especialista en redes sociales…
Sam Altman critica a su ChatGPT: su personalidad es molesta y sus últimos modelos alucinan mucho
Sam Altman

El CEO de OpenAI, Sam Altman, admitió anoche que las últimas actualizaciones de GPT-4o han afectado a la personalidad del chatbot, y no en el buen sentido.

Si utilizas ChatGPT con la suficiente frecuencia, es posible que hayas notado un cambio en su comportamiento últimamente. Parte de esto puede deberse a su memoria, ya que en mi experiencia, el chatbot se dirige a ti de manera diferente cuando no se basa en chats anteriores para guiar la forma en que (potencialmente) querrías que respondiera. Sin embargo, parte de esto es solo que en algún momento del camino, OpenAI ha convertido a ChatGPT en el llamado "hombre del sí", una herramienta que está de acuerdo contigo en lugar de desafiarte y, a veces, el resultado puede ser un poco desagradable.

Leer más
Ranking de los mejores chatbots: Grok explota en crecimiento, pero ¿quién es el rey: ChatGPT, Gemini, DeepSeek?
Grok

La nueva carrera frenética en el mundo de la tecnología es la de los chatbots de IA, donde han habido cambios significativos en el ranking de los mejores (basados en cifras de usuarios), según  el directorio de herramientas de IA aitools.xyz.

El mercado experimentó cambios significativos en marzo de 2025. ChatGPT lideró con un aumento de 400 millones de visitas intermensuales, alcanzando los 5.600 millones de visitas. Grok experimentó el crecimiento más explosivo, añadiendo 105,4 millones de visitas para un aumento del 193,04%, superando a competidores como DeepSeek y Gemini.

Leer más
La investigación profunda de ChatGPT ahora será gratis y más ligera
ChatGPT

Hay mucho bombo publicitario sobre la IA flotando por ahí, y parece que todas las marcas quieren incluirlo en sus productos. Pero también hay algunas herramientas notablemente útiles, aunque son bastante caras. La investigación profunda de ChatGPT es una de esas características, y parece que OpenAI finalmente se siente un poco generoso al respecto.

La compañía ha creado una versión ligera de Deep Research que funciona con su nuevo modelo de lenguaje o4-mini. OpenAI dice que esta variante es "más rentable al tiempo que conserva la alta calidad". Más importante aún, está disponible para su uso de forma gratuita sin ninguna advertencia de suscripción.

Leer más