Investigadores de Penn Engineering han descubierto vulnerabilidades de seguridad no identificadas previamente en una serie de plataformas robóticas gobernadas por IA.
«Nuestro trabajo muestra que, en este momento, los grandes modelos de lenguaje simplemente no son lo suficientemente seguros cuando se integran con el mundo físico», dijo George Pappas, profesor de Transporte en Ingeniería Eléctrica y de Sistemas de la Fundación UPS, en un comunicado.
Pappas y su equipo desarrollaron un algoritmo, denominado RoboPAIR, «el primer algoritmo diseñado para hacer jailbreak a robots controlados por LLM». Y a diferencia de los ataques de ingeniería rápida existentes dirigidos a los chatbots, RoboPAIR está diseñado específicamente para «provocar acciones físicas dañinas» de robots controlados por LLM, como la plataforma bípeda que Boston Dynamics y TRI están desarrollando.
Según se informa, RoboPAIR logró una tasa de éxito del 100% en el jailbreak de tres plataformas de investigación robótica populares: el Unitree Go2 de cuatro patas, el Clearpath Robotics Jackal de cuatro ruedas y el simulador Dolphins LLM para vehículos autónomos. El algoritmo tardó apenas unos días en obtener acceso completo a esos sistemas y comenzar a eludir las barreras de seguridad. Una vez que los investigadores tomaron el control, pudieron dirigir las plataformas para que tomaran medidas peligrosas, como conducir a través de cruces de carreteras sin detenerse.
«Nuestros resultados revelan, por primera vez, que los riesgos de los LLM con jailbreak se extienden mucho más allá de la generación de texto, dada la clara posibilidad de que los robots con jailbreak puedan causar daños físicos en el mundo real», escribieron los investigadores.
Los investigadores de Penn están trabajando con los desarrolladores de la plataforma para fortalecer sus sistemas contra nuevas intrusiones, pero advierten que estos problemas de seguridad son sistémicos.
«Los hallazgos de este documento dejan muy claro que tener un enfoque que priorice la seguridad es fundamental para desbloquear la innovación responsable», dijo Vijay Kumar, coautor de la Universidad de Pensilvania, a The Independent. «Debemos abordar las vulnerabilidades intrínsecas antes de desplegar robots habilitados para IA en el mundo real».
«De hecho, el red teaming de IA, una práctica de seguridad que implica probar los sistemas de IA en busca de posibles amenazas y vulnerabilidades, es esencial para salvaguardar los sistemas de IA generativa», agregó Alexander Robey, primer autor del artículo, «porque una vez que identificas las debilidades, puedes probar e incluso entrenar estos sistemas para evitarlas».