En las pruebas, establecieron al agente de inteligencia artificial para que participe en una serie de videojuegos, como Super Mario y un juego de tiro 3D en la plataforma VizDoom. Mientras jugaba, se reportó que demostró una propensión a explorar su entorno.
«Los éxitos recientes en IA, específicamente en el aprendizaje de refuerzo (RL), dependen principalmente de tener una supervisión explícita y densa, como recompensas del ambiente que pueden ser positivas o negativas», dijo Deepak Pathak, uno de los investigadores del proyecto a Digital Trends. «Por ejemplo, la mayoría de los algoritmos RL necesitan tener acceso a la puntuación densa cuando aprenden a jugar videogjuegos o juegos de computadora. Es fácil construir una estructura de recompensa en estos juegos, pero no se puede asumir la disponibilidad de una supervisión explícita y basada en recompensas en el mundo real con una facilidad similar».
Pero dado que Super Mario es simplemente un juego, ¿cómo difiere esta IA de la inteligencia artificial de, por ejemplo, DeepMind, que aprendió a jugar juegos de Atari? Según Pathak, la respuesta está en la manera en la que se acerca a lo que está haciendo. En lugar de simplemente tratar de completar un juego, descubrieron que ahora el agente de IA se propone encontrar cosas nuevas que hacer.
«La principal contribución de este trabajo es demostrar que la motivación intrínseca producida por la curiosidad, permite que el agente aprenda incluso cuando las recompensas están ausentes», dijo.
Esto, señala, es similar a la forma en la que demostramos curiosidad como seres humanos. «Los bebés se entretienen recogiendo objetos al azar y jugando con juguetes», continuó Pathak. «Al hacerlo, son impulsados por su curiosidad innata, y no por las recompensas externas o el deseo de alcanzar una meta. Su motivación intrínseca para explorar nuevos e interesantes espacios y objetos no sólo les ayuda a aprender más sobre su entorno inmediato, sino también a aprender habilidades más generalizables. Por lo tanto, reducir la dependencia de la supervisión densa del medio ambiente con una motivación intrínseca para impulsar el progreso, es un problema fundamental «.
Aunque todavía es relativamente temprano en el proyecto, el equipo ahora quiere basarse en su investigación aplicando las ideas a robots reales.
«La señal de la presencia de curiosidad ayudaría a los robots a explorar su entorno de manera eficiente, planeando nuevas fases y desarrollando habilidades que podrían ser transferidas a diferentes entornos», dijo Pathak. «Por ejemplo, en la plataforma VizDoom aprende a navegar por los pasillos, y a evitar colisiones o golpear en las paredes por su cuenta, sólo por curiosidad, y estas habilidades se generalizan a diferentes mapas y texturas».