Guardrails: la herramienta de Nvidia que hace de policía de ChatGPT

Nvidia está presentando su nueva herramienta NeMo Guardrails para desarrolladores de IA, y promete hacer que los chatbots de IA como ChatGPT sean un poco menos locos. El software de código abierto está disponible para los desarrolladores ahora, y se centra en tres áreas para hacer que los chatbots de IA sean más útiles y menos inquietantes.

La herramienta se encuentra entre el usuario y el modelo de lenguaje grande (LLM) con el que están interactuando. Es una seguridad para los chatbots, interceptando las respuestas antes de que lleguen al modelo de lenguaje para evitar que el modelo responda o para darle instrucciones específicas sobre cómo responder.

Bing Chat diciendo que quiere ser humano. — Jacob Roach

Nvidia dice que NeMo Guardrails se centra en los límites temáticos y de seguridad. El enfoque temático parece ser el más útil, ya que obliga al LLM a permanecer en un rango particular de respuestas. Nvidia demostró Guardrails mostrando un chatbot entrenado en la base de datos de recursos humanos de la compañía. Cuando se le hizo una pregunta sobre las finanzas de Nvidia, dio una respuesta enlatada que fue programada con NeMo Guardrails.

Recommended Videos

Esto es importante debido a las muchas llamadas alucinaciones que hemos visto en los chatbots de IA. Bing Chat de Microsoft, por ejemplo, nos proporcionó varias respuestas extrañas y objetivamente incorrectas en nuestra primera demostración. Cuando se enfrenta a una pregunta que el LLM no entiende, a menudo inventará una respuesta en un intento de satisfacer la consulta. NeMo Guardrails tiene como objetivo poner fin a esas respuestas inventadas.

Los principios de seguridad se centran en filtrar las respuestas no deseadas del LLM y evitar que los usuarios jueguen con él. Como ya hemos visto, puedes hacer jailbreak a ChatGPT y otros chatbots de IA. NeMo Guardrails tomará esas consultas y bloqueará que lleguen al LLM.

Un diagrama de la herramienta NeMo Guardrails de Nvidia.

Aunque NeMo Guardrails está diseñado para mantener los chatbots sobre el tema y precisos, no es una solución general. Nvidia dice que funciona mejor como una segunda línea de defensa, y que las empresas que desarrollan e implementan chatbots aún deben entrenar el modelo en un conjunto de salvaguardas.

Los desarrolladores también deben personalizar la herramienta para que se ajuste a sus aplicaciones. Esto permite que NeoMo Guardrails se coloque sobre el middleware que los modelos de IA ya utilizan, como LangChain, que ya proporciona un marco sobre cómo se supone que los chatbots de IA interactúan con los usuarios.

Además de ser de código abierto, Nvidia también ofrece NeMo Guardrails como parte de su servicio AI Foundations. Este paquete proporciona varios modelos y marcos previamente entrenados para empresas que no tienen el tiempo o los recursos para entrenar y mantener sus propios modelos.