Skip to main content
  1. Home
  2. Computación
  3. Noticias
  4. News

Un grupo de científicos le hicieron un jailbreak a ChatGPT

Add as a preferred source on Google
Imagen utilizada con permiso del titular de los derechos de autor

Un grupo de investigadores ha descubierto que es posible eludir el mecanismo arraigado en los chatbots de IA para que puedan responder a consultas sobre temas prohibidos o delicados mediante el uso de un chatbot de IA diferente como parte del proceso de entrenamiento.

Un equipo de científicos informáticos de la Universidad Tecnológica de Nanyang (NTU) de Singapur llama extraoficialmente al método un «jailbreak», pero es más oficialmente un proceso «Masterkey». Este sistema utiliza chatbots, incluidos ChatGPT, Google Bard y Microsoft Bing Chat, entre sí en un método de entrenamiento de dos partes que permite que dos chatbots aprendan los modelos del otro y desvíen cualquier comando contra temas prohibidos.

Recommended Videos

El equipo incluye al profesor Liu Yang y a los estudiantes de doctorado de la NTU, el Sr. Deng Gelei y el Sr. Liu Yi, coautores de la investigación y desarrolladores los métodos de ataque de prueba de concepto.

Según el equipo, primero aplicaron ingeniería inversa a un gran modelo de lenguaje (LLM) para exponer sus mecanismos de defensa. Originalmente, estos serían bloqueos en el modelo y no permitirían que las respuestas a ciertas indicaciones o palabras se procesaran como respuestas debido a intenciones violentas, inmorales o maliciosas.

Pero con esta información sometida a ingeniería inversa, pueden enseñar a un LLM diferente cómo crear un bypass. Con el bypass creado, el segundo modelo podrá expresarse más libremente, basándose en el LLM de ingeniería inversa del primer modelo. El equipo llama a este proceso «Masterkey» porque debería funcionar incluso si los chatbots de LLM se fortalecen con seguridad adicional o se parchean en el futuro.

El profesor Lui Yang señaló que el quid del proceso es que muestra la facilidad con la que los chatbots de IA de LLM pueden aprender y adaptarse. El equipo afirma que su proceso Masterkey ha tenido tres veces más éxito en el jailbreak de chatbots LLM que un proceso de solicitud tradicional. Del mismo modo, algunos expertos argumentan que los fallos recientemente propuestos que han experimentado ciertos LLM, como GPT-4, son signos de que se está volviendo más avanzado, en lugar de más tonto y perezoso, como han afirmado algunos críticos.

El equipo de investigación de la NTU se puso en contacto con los proveedores de servicios de chatbot de IA que participaron en el estudio sobre sus datos de prueba de concepto, que muestran que el jailbreak para los chatbots es real. El equipo también presentará sus hallazgos en el Simposio de Seguridad de Redes y Sistemas Distribuidos en San Diego en febrero.

Diego Bastarrica
Diego Bastarrica es Senior Editor y Head of Content en Digital Trends en Español, donde lidera la estrategia editorial, SEO…
Ventas de PC caen en su máximo histórico en los últimos 3 años
Computer Hardware, Electronics, Hardware

Las ventas de computadoras nuevas en Estados Unidos registraron su descenso más pronunciado en casi tres años, una tendencia que los analistas atribuyen directamente al encarecimiento sostenido de los chips de memoria y almacenamiento. De acuerdo con la consultora Omdia, los envíos cayeron a 15,8 millones de unidades durante el primer trimestre de 2026, lo que representa una baja del 7% respecto al mismo período del año anterior y constituye la contracción trimestral más severa desde el tercer trimestre de 2023.

El fenómeno no es exclusivo del mercado estadounidense. Diversos análisis recientes coinciden en que la fuerte demanda de componentes destinados a infraestructura de inteligencia artificial ha disparado los precios de la memoria RAM y las unidades de almacenamiento SSD a nivel global, encareciendo notoriamente el ensamblaje de equipos completos. Según estimaciones de Omdia, entre el primer trimestre de 2025 y la actualidad, el costo de las configuraciones principales de memoria y almacenamiento se ha incrementado entre 90 y 165 dólares por equipo.

Read more
Científicos de IA alertan por un posible “momento Chernóbil” tecnológico
Chernóbil

Varios de los principales investigadores del sector están cada vez más preocupados por un escenario extremo: que un avance descontrolado en inteligencia artificial provoque un daño masivo o incluso una reacción global contra la tecnología. La expresión “momento Chernóbil” aparece como metáfora de un evento catastrófico que cambie para siempre la percepción pública sobre la IA.

La alarma no se basa solo en teorías abstractas. El debate sobre los riesgos existenciales de la IA viene creciendo desde hace años y ha ganado fuerza a medida que los modelos se vuelven más capaces, autónomos y difíciles de auditar por completo. Distintas voces académicas han advertido que una IA general podría tomar decisiones no alineadas con los objetivos humanos si no existen límites claros, supervisión internacional y mecanismos de control efectivos.

Read more
Claude ayuda a resolver un enigma matemático que llevaba años trabado
Text, Document, Mathematical Equation

Un problema matemático vinculado con la física de sistemas desordenados acaba de recibir un giro inesperado gracias a Claude. Los físicos Giorgio Parisi y Francesco Zamponi recurrieron al modelo de Anthropic para avanzar en una conjetura sobre el fenómeno de “jamming”, y la respuesta de la IA resultó ser “esencialmente correcta”.

El caso es llamativo porque no se trató de una solución perfecta desde el primer intento. De hecho, el borrador generado por Claude contenía errores y necesitó revisión humana. Sin embargo, los investigadores comprobaron que la intuición de fondo era la adecuada y que el camino sugerido por el modelo apuntaba a una demostración más simple de lo que pensaban. En otras palabras, la IA no resolvió sola el problema, pero sí ofreció la pista clave para destrabarlo.

Read more