Skip to main content

Un grupo de científicos le hicieron un jailbreak a ChatGPT

Imagen utilizada con permiso del titular de los derechos de autor

Un grupo de investigadores ha descubierto que es posible eludir el mecanismo arraigado en los chatbots de IA para que puedan responder a consultas sobre temas prohibidos o delicados mediante el uso de un chatbot de IA diferente como parte del proceso de entrenamiento.

Un equipo de científicos informáticos de la Universidad Tecnológica de Nanyang (NTU) de Singapur llama extraoficialmente al método un «jailbreak», pero es más oficialmente un proceso «Masterkey». Este sistema utiliza chatbots, incluidos ChatGPT, Google Bard y Microsoft Bing Chat, entre sí en un método de entrenamiento de dos partes que permite que dos chatbots aprendan los modelos del otro y desvíen cualquier comando contra temas prohibidos.

Recommended Videos

El equipo incluye al profesor Liu Yang y a los estudiantes de doctorado de la NTU, el Sr. Deng Gelei y el Sr. Liu Yi, coautores de la investigación y desarrolladores los métodos de ataque de prueba de concepto.

Según el equipo, primero aplicaron ingeniería inversa a un gran modelo de lenguaje (LLM) para exponer sus mecanismos de defensa. Originalmente, estos serían bloqueos en el modelo y no permitirían que las respuestas a ciertas indicaciones o palabras se procesaran como respuestas debido a intenciones violentas, inmorales o maliciosas.

Pero con esta información sometida a ingeniería inversa, pueden enseñar a un LLM diferente cómo crear un bypass. Con el bypass creado, el segundo modelo podrá expresarse más libremente, basándose en el LLM de ingeniería inversa del primer modelo. El equipo llama a este proceso «Masterkey» porque debería funcionar incluso si los chatbots de LLM se fortalecen con seguridad adicional o se parchean en el futuro.

El profesor Lui Yang señaló que el quid del proceso es que muestra la facilidad con la que los chatbots de IA de LLM pueden aprender y adaptarse. El equipo afirma que su proceso Masterkey ha tenido tres veces más éxito en el jailbreak de chatbots LLM que un proceso de solicitud tradicional. Del mismo modo, algunos expertos argumentan que los fallos recientemente propuestos que han experimentado ciertos LLM, como GPT-4, son signos de que se está volviendo más avanzado, en lugar de más tonto y perezoso, como han afirmado algunos críticos.

El equipo de investigación de la NTU se puso en contacto con los proveedores de servicios de chatbot de IA que participaron en el estudio sobre sus datos de prueba de concepto, que muestran que el jailbreak para los chatbots es real. El equipo también presentará sus hallazgos en el Simposio de Seguridad de Redes y Sistemas Distribuidos en San Diego en febrero.

Diego Bastarrica
Diego Bastarrica es periodista y docente de la Universidad Diego Portales de Chile. Especialista en redes sociales…
Hay una nueva forma de usar ChatGPT en tu iPhone. Así es como funciona
demandan apple millones dolares monopolio icloud iphone 16 plus

Hay una nueva forma de acceder a ChatGPT en el iPhone y el iPad de Apple. Según lo informado por MacRumors, la última versión de la aplicación ChatGPT facilita aún más el acceso a la función SearchGPT de la aplicación.

ChatGPT, un sofisticado chatbot de IA desarrollado por OpenAI, utiliza un conjunto de datos cada vez mayor para responder preguntas, escribir historias, resumir temas fácticos, traducir idiomas y crear contenido creativo. Está disponible en dispositivos Apple a través de la aplicación ChatGPT, y se espera que se integre en Siri en una futura versión de Apple Intelligence.

Leer más
Apple está diseñando al Siri que quiere aplastar a ChatGPT
apple siri quiere aplastar chatgpt omid armin agrtdozlpyw unsplash

Apple sabe que en la carrera por la IA comenzó desde las posiciones de atrás, sobre todo porque OpenAI, Microsoft y Google ya tenían una pole position bien ganada por el desarrollo de algunos años.

Pero ahora, la compañía de Tim Cook se quiere colocar a tono y para eso busca potenciar a Siri como el competidor más directo de ChatGPT.

Leer más
ChatGPT ya habla, ahora también podrá verte
chatgpt ahora podra verte vision

IA abierta
El modo de voz avanzado de ChatGPT, que permite a los usuarios conversar con el chatbot en tiempo real, pronto podría obtener el don de la vista, según el código descubierto en la última versión beta de la plataforma. Si bien OpenAI aún no ha confirmado el lanzamiento específico de la nueva función, el código de la versión beta de ChatGPT v1.2024.317 detectado por Android Authority sugiere que la llamada "cámara en vivo" podría estar inminente.

OpenAI había mostrado por primera vez las capacidades de visión del modo de voz avanzado para ChatGPT en mayo, cuando la función se lanzó por primera vez en alfa. Durante una demostración publicada en ese momento, el sistema pudo identificar que estaba mirando a un perro a través de la alimentación de la cámara del teléfono, identificar al perro en función de interacciones pasadas, reconocer la pelota del perro y asociar la relación del perro con la pelota (es decir, jugar a buscar).

Leer más