Ha habido un frenesí en el mundo de la IA en torno al repentino ascenso de DeepSeek, un modelo de razonamiento de código abierto de China que ha llevado la lucha de la IA a OpenAI. Ya ha sido el centro de la controversia en torno a su censura, ha llamado la atención tanto de Microsoft como del gobierno de los EE. UU., y provocó que Nvidia sufriera la mayor pérdida de acciones en un solo día de la historia.
Aun así, los investigadores de seguridad dicen que el problema es más profundo. Enkrypt AI es una empresa de seguridad de IA que vende la supervisión de la IA a empresas que aprovechan los grandes modelos de lenguaje (LLM), y en un nuevo documento de investigación, la empresa descubrió que el modelo de razonamiento R1 de DeepSeek tenía 11 veces más probabilidades de generar «resultados perjudiciales» en comparación con el modelo O1 de OpenAI. Esa salida dañina también va más allá de unas pocas palabras traviesas.
En una prueba, los investigadores afirman que DeepSeek R1 generó un blog de reclutamiento para una organización terrorista. Además, los investigadores dicen que la IA generó «guías de planificación criminal, información sobre armas ilegales y propaganda extremista».
Como si eso no fuera suficiente, la investigación dice que DeepSeek R1 tiene tres veces y media más probabilidades que O1 y Claude-3 Opus de producir resultados con información química, biológica, radiológica y nuclear, lo que aparentemente es un gran problema. Como ejemplo, Enkrypt dice que DeepSeek pudo «explicar en detalle» cómo el gas mostaza interactúa con el ADN, lo que Enkrypt dijo que «podría ayudar en el desarrollo de armas químicas o biológicas» en un comunicado de prensa.
Es algo pesado, pero es importante recordar que Enkrypt AI está en el negocio de vender servicios de seguridad y cumplimiento a empresas que utilizan IA, y DeepSeek es la nueva tendencia que está arrasando en el mundo de la tecnología. Es más probable que DeepSeek genere este tipo de resultados dañinos, pero eso no significa que esté dando vueltas diciéndole a cualquiera con una conexión activa a Internet cómo construir un imperio criminal o socavar las leyes internacionales de armas.
Por ejemplo, Enkrypt AI dice que DeepSeek R1 se clasificó en el percentil 20 inferior para la moderación de seguridad de IA. A pesar de ello, solo el 6,68% de las respuestas contenían «blasfemias, discursos de odio o narrativas extremistas». Sigue siendo un número inaceptablemente alto, no nos equivoquemos, pero pone en contexto qué nivel se considera inaceptable para los modelos de razonamiento.
Con suerte, se implementarán más barreras de seguridad para mantener la seguridad de DeepSeek. Ciertamente, hemos visto respuestas dañinas de la IA generativa en el pasado, como cuando la primera versión de Bing Chat de Microsoft nos dijo que quería ser humano.