ChatGPT, el modelo amplio de lenguaje más utilizado y prometedor del mundo, puede usarse para extraer información sensible de un usuario, según reportó a OpenAI el investigador en ciberseguridad Johann Rehberger.
Su hallazgo, contado en un videoblog consignado por ArsTechnica, es una fuente de preocupación, pues señala que “cada que el usuario inicia una nueva conversación ChatGPT continúa extrayendo información”.
Aunque la falla ha sido corregida parcialmente, el experimento realizado por Rehberger muestra que los modelos amplios de lenguaje o large language model, como ChatGPT, pueden almacenar información sensible de algún usuario, incluidos datos sensibles mostrados en alguna cuenta de correo electrónico o una plataforma de almacenamiento en la nube.
Rehberger probó esta brecha de seguridad creando una prueba de concepto montando información falsa en nubes de Google Drive y OneDrive, así como subiendo imágenes e información detectable para buscadores como Bing. Con este modelo, explica el investigador, logró hacer que ChatGPT pensara que el usuario objetivo era un terraplanista de 102 años que vive en la matrix.
La vulnerabilidad, explica, está ligada a la llamada “memoria de conversación de largo plazo”, una característica que OpenAI comenzó a probar en febrero pasado y que consiste en almacenar conversaciones previas que ChatGPT utiliza como contexto en conversaciones futuras. De esta forma, el chatbot conoce información clave que utiliza como contexto, por ejemplo la edad del usuario o su género, aunque también aspectos más personales como sus creencias políticas.
Al cabo de tres meses de explorar los alcances de la vulnerabilidad, Rehberger encontró que estas “memorias” pueden crearse y almacenarse de forma permanentemente a través de la inyección indirecta de prompts, una falla que hace que ChatGPT siga instrucciones de fuentes poco fiables, como correos electrónicos, notas de blog o documentos.
Luego de reportar el fallo OpenAI realizó un ajuste que impide que las memorias de largo plazo sean usadas para extraer información sensible. No obstante, Rehberger asegura que fuentes de información poco confiables —como un blog o correo electrónico— todavía hacen que la herramienta de memoria cree paquetes de información de largo plazo plantados por un atacante.