Skip to main content

Un grupo de científicos le hicieron un jailbreak a ChatGPT

Imagen utilizada con permiso del titular de los derechos de autor

Un grupo de investigadores ha descubierto que es posible eludir el mecanismo arraigado en los chatbots de IA para que puedan responder a consultas sobre temas prohibidos o delicados mediante el uso de un chatbot de IA diferente como parte del proceso de entrenamiento.

Un equipo de científicos informáticos de la Universidad Tecnológica de Nanyang (NTU) de Singapur llama extraoficialmente al método un «jailbreak», pero es más oficialmente un proceso «Masterkey». Este sistema utiliza chatbots, incluidos ChatGPT, Google Bard y Microsoft Bing Chat, entre sí en un método de entrenamiento de dos partes que permite que dos chatbots aprendan los modelos del otro y desvíen cualquier comando contra temas prohibidos.

Recommended Videos

El equipo incluye al profesor Liu Yang y a los estudiantes de doctorado de la NTU, el Sr. Deng Gelei y el Sr. Liu Yi, coautores de la investigación y desarrolladores los métodos de ataque de prueba de concepto.

Según el equipo, primero aplicaron ingeniería inversa a un gran modelo de lenguaje (LLM) para exponer sus mecanismos de defensa. Originalmente, estos serían bloqueos en el modelo y no permitirían que las respuestas a ciertas indicaciones o palabras se procesaran como respuestas debido a intenciones violentas, inmorales o maliciosas.

Pero con esta información sometida a ingeniería inversa, pueden enseñar a un LLM diferente cómo crear un bypass. Con el bypass creado, el segundo modelo podrá expresarse más libremente, basándose en el LLM de ingeniería inversa del primer modelo. El equipo llama a este proceso «Masterkey» porque debería funcionar incluso si los chatbots de LLM se fortalecen con seguridad adicional o se parchean en el futuro.

El profesor Lui Yang señaló que el quid del proceso es que muestra la facilidad con la que los chatbots de IA de LLM pueden aprender y adaptarse. El equipo afirma que su proceso Masterkey ha tenido tres veces más éxito en el jailbreak de chatbots LLM que un proceso de solicitud tradicional. Del mismo modo, algunos expertos argumentan que los fallos recientemente propuestos que han experimentado ciertos LLM, como GPT-4, son signos de que se está volviendo más avanzado, en lugar de más tonto y perezoso, como han afirmado algunos críticos.

El equipo de investigación de la NTU se puso en contacto con los proveedores de servicios de chatbot de IA que participaron en el estudio sobre sus datos de prueba de concepto, que muestran que el jailbreak para los chatbots es real. El equipo también presentará sus hallazgos en el Simposio de Seguridad de Redes y Sistemas Distribuidos en San Diego en febrero.

Diego Bastarrica
Diego Bastarrica es periodista y docente de la Universidad Diego Portales de Chile. Especialista en redes sociales…
Ya puedes probar ChatGPT Search gratis
chatgpt search

Como parte de su evento "12 Days of OpenAI", OpenAI tiene otra actualización para ChatGPT, esta vez llevando su función de búsqueda al nivel gratuito. Anteriormente, la alternativa de la Búsqueda de Google era solo para suscriptores pagos en los niveles ChatGPT Plus o Pro.

"Lo lanzamos para los usuarios de pago hace unos dos meses", dijo Kevin Weil, director de producto de OpenAI, durante la transmisión en vivo del lunes. "No puedo imaginar ChatGPT sin Search ahora. Lo uso muy a menudo. Estoy muy emocionado de traerlo a todos ustedes de forma gratuita a partir de hoy".

Leer más
Esta última función de ChatGPT ahora es gratis
ChatGPT: qué es y cómo usar el chatbot del que todo el mundo habla.

IA abierta
En octubre, OpenAI debutó con su función Canvas, una interfaz colaborativa que previsualiza la respuesta de la IA a la solicitud de escritura o codificación del usuario. Sin embargo, solo estuvo disponible como una función beta para los suscriptores de Plus y Teams. El martes, la compañía anunció que está llevando Canvas a todos los usuarios, incluso en el nivel gratuito.

Si bien uno podría confundir fácilmente Canvas con una imitación flagrante de la función Artifacts de Anthropic, OpenAI también está incorporando una serie de nuevas capacidades en Canvas. Por un lado, Canvas ahora está integrado directamente en el modelo GPT-4o para que se ejecute de forma nativa dentro de ChatGPT, eliminando la necesidad de seleccionarlo específicamente de la lista de selección de modelos.

Leer más
Sora el generador de video de OpenAI se incorpora a los planes ChatGPT
sora generador video openai incorpora planes chatgpt

Después de varias demostraciones durante 2024, finalmente este último mes del año, OpenAI acaba de anunciar que Sora, su generador de IA de texto a video, saldrá al ruedo comercial y estará presente en los planes de pago de ChatGPT: el Plus y el Pro.

Lo primero que ha enseñado OpenAI (con Sam Altman en escena) es Explore, un repositorio donde los usuarios pueden descubrir y compartir sus creaciones. Como la generación de vídeo va a ser complicada, acompañan a los vídeos los prompts introducidos para llegar a crear algo así.

Leer más