Google anunció a través de una publicación en X (anteriormente Twitter) el miércoles que SynthID ya está disponible para cualquiera que quiera probarlo. El sistema de autenticación para el contenido generado por IA incrusta marcas de agua imperceptibles en imágenes, videos y texto generados, lo que permite a los usuarios verificar si un contenido fue creado por humanos o máquinas.
«Estamos abriendo el código de nuestra herramienta de marca de agua SynthID Text», escribió la compañía. «Disponible de forma gratuita para desarrolladores y empresas, les ayudará a identificar su contenido generado por IA».
SynthID debutó en 2023 como un medio para poner marcas de agua en imágenes, audio y vídeo generados por IA. Inicialmente se integró en Imagen, y posteriormente la compañía anunció su incorporación al chatbot Gemini el pasado mes de mayo en I/O 2024.
El sistema funciona codificando tokens, que son los fragmentos fundamentales de datos (ya sea un solo carácter, una palabra o parte de una frase) que una IA generativa utiliza para comprender el mensaje y predecir la siguiente palabra en su respuesta, con marcas de agua imperceptibles durante el proceso de generación de texto. Lo hace, según un blog de DeepMind de mayo, «introduciendo información adicional en la distribución de tokens en el punto de generación modulando la probabilidad de que se generen tokens».
Al comparar las elecciones de palabras del modelo junto con sus «puntuaciones de probabilidad ajustadas» con el patrón esperado de puntuaciones para texto con y sin marca de agua, SynthID puede detectar si una IA escribió esa frase.
Here’s how SynthID watermarks AI-generated content across modalities. ↓ pic.twitter.com/CVxgP3bnt2
— Google DeepMind (@GoogleDeepMind) October 23, 2024
Este proceso no afecta a la precisión, la calidad o la velocidad de la respuesta, según un estudio publicado en Nature el miércoles, ni se puede eludir fácilmente. A diferencia de los metadatos estándar, que se pueden quitar y borrar fácilmente, la marca de agua de SynthID permanece incluso si el contenido se ha recortado, editado o modificado de otra manera.
«Lograr marcas de agua confiables e imperceptibles de texto generado por IA es fundamentalmente un desafío, especialmente en escenarios donde los resultados [del modelo de lenguaje grande] son casi deterministas, como preguntas fácticas o tareas de generación de código», dijo Soheil Feizi, profesor asociado de la Universidad de Maryland, a MIT Technology Review, señalando que su naturaleza de código abierto «permite a la comunidad probar estos detectores y evaluar su robustez en diferentes entornos, lo que ayuda a comprender mejor las limitaciones de estas técnicas».
Sin embargo, el sistema no es infalible. Si bien es resistente a la manipulación, las marcas de agua de SynthID se pueden eliminar si el texto se ejecuta a través de una aplicación de traducción de idiomas o si se ha reescrito en gran medida. También es menos eficaz con pasajes cortos de texto y para determinar si una respuesta basada en una afirmación fáctica fue generada por IA. Por ejemplo, solo hay una respuesta correcta a la pregunta, «¿cuál es la capital de Francia?» y tanto los humanos como la IA te dirán que es París.
Si quieres probar SynthID tú mismo, puedes descargarlo de Hugging Face como parte del kit de herramientas actualizado de GenAI responsable de Google.