Skip to main content

Un grupo de científicos le hicieron un jailbreak a ChatGPT

Imagen utilizada con permiso del titular de los derechos de autor

Un grupo de investigadores ha descubierto que es posible eludir el mecanismo arraigado en los chatbots de IA para que puedan responder a consultas sobre temas prohibidos o delicados mediante el uso de un chatbot de IA diferente como parte del proceso de entrenamiento.

Un equipo de científicos informáticos de la Universidad Tecnológica de Nanyang (NTU) de Singapur llama extraoficialmente al método un «jailbreak», pero es más oficialmente un proceso «Masterkey». Este sistema utiliza chatbots, incluidos ChatGPT, Google Bard y Microsoft Bing Chat, entre sí en un método de entrenamiento de dos partes que permite que dos chatbots aprendan los modelos del otro y desvíen cualquier comando contra temas prohibidos.

El equipo incluye al profesor Liu Yang y a los estudiantes de doctorado de la NTU, el Sr. Deng Gelei y el Sr. Liu Yi, coautores de la investigación y desarrolladores los métodos de ataque de prueba de concepto.

Según el equipo, primero aplicaron ingeniería inversa a un gran modelo de lenguaje (LLM) para exponer sus mecanismos de defensa. Originalmente, estos serían bloqueos en el modelo y no permitirían que las respuestas a ciertas indicaciones o palabras se procesaran como respuestas debido a intenciones violentas, inmorales o maliciosas.

Pero con esta información sometida a ingeniería inversa, pueden enseñar a un LLM diferente cómo crear un bypass. Con el bypass creado, el segundo modelo podrá expresarse más libremente, basándose en el LLM de ingeniería inversa del primer modelo. El equipo llama a este proceso «Masterkey» porque debería funcionar incluso si los chatbots de LLM se fortalecen con seguridad adicional o se parchean en el futuro.

El profesor Lui Yang señaló que el quid del proceso es que muestra la facilidad con la que los chatbots de IA de LLM pueden aprender y adaptarse. El equipo afirma que su proceso Masterkey ha tenido tres veces más éxito en el jailbreak de chatbots LLM que un proceso de solicitud tradicional. Del mismo modo, algunos expertos argumentan que los fallos recientemente propuestos que han experimentado ciertos LLM, como GPT-4, son signos de que se está volviendo más avanzado, en lugar de más tonto y perezoso, como han afirmado algunos críticos.

El equipo de investigación de la NTU se puso en contacto con los proveedores de servicios de chatbot de IA que participaron en el estudio sobre sus datos de prueba de concepto, que muestran que el jailbreak para los chatbots es real. El equipo también presentará sus hallazgos en el Simposio de Seguridad de Redes y Sistemas Distribuidos en San Diego en febrero.

Recomendaciones del editor

Diego Bastarrica
Diego Bastarrica es periodista y docente de la Universidad Diego Portales de Chile. Especialista en redes sociales…
Hay una imagen que está destruyendo a ChatGPT
imagen destruye chatgpt

DT
Enviar imágenes como indicaciones a ChatGPT sigue siendo una característica bastante nueva, pero en mis propias pruebas, funciona bien la mayor parte del tiempo. Sin embargo, alguien acaba de encontrar una imagen que ChatGPT parece no poder manejar, y definitivamente no es lo que esperas.

La imagen, descubierta por brandon_xyzw en X (antes Twitter), presenta algo de ruido digital. No es nada especial, en realidad, solo un fondo negro con algunas líneas verticales por todas partes. Pero si intentas mostrárselo a ChatGPT, la imagen rompe el chatbot todas y cada una de las veces, sin falta.

Leer más
OpenAI lanza nueva suscripción premium grupal para ChatGPT
¿Qué es ChatGPT? Cómo usar el chatbot del que todo el mundo habla.

Este 10 de enero, OpenAI acaba de informar sobre la puesta en marcha de un nuevo modelo de suscripción para grupos, llamado (no podía ser de otra manera) ChatGPTTeam.

El plan proporciona un espacio de trabajo dedicado para equipos de hasta 149 personas que utilizan ChatGPT, así como herramientas de administración para la gestión de equipos.

Leer más
Ahora podrás manejar con ChatGPT de copiloto en un Volkswagen
volkswagen sedan electrico id aero

En el CES 2024, Volkswagen anunció que integrará ChatGPT en los sistemas de reconocimiento de voz de algunos vehículos futuros, algo que, según el fabricante de automóviles, proporcionará una mayor funcionalidad que el reconocimiento de voz estándar. Está previsto que ChatGPT esté disponible en el segundo trimestre de 2024 y "se está considerando para Estados Unidos", según un comunicado de prensa de VW.

VW está utilizando Cerence Chat Pro para integrar ChatGPT, que permitirá a los conductores acceder al chatbot sin tener que activarlo por separado, crear una cuenta separada de la asociada con el perfil de usuario de su automóvil o instalar una aplicación separada. El reconocimiento de voz seguirá funcionando como en los modelos actuales de VW, donde ya se utiliza para el control del clima, el infoentretenimiento y las funciones de navegación, pero ahora podrá responder a preguntas de cultura general con respuestas procedentes de ChatGPT. Esto no le dará a ChatGPT acceso a los datos del vehículo, y las preguntas y respuestas se "eliminarán de inmediato", según VW.

Leer más