La Inteligencia Artificial (IA) no deja de sorprendernos, y esta vez investigadores de OpenAI revelaron un experimento en un trabajo de investigación y en una publicación de blog donde dan cuenta de cómo se logró entrenar una IA para jugar Minecraft y ser mucho mejor que un humano.
«Con el ajuste fino, nuestro modelo puede aprender a fabricar herramientas de diamante, una tarea que generalmente toma humanos competentes durante 20 minutos (24,000 acciones). Nuestro modelo utiliza la interfaz humana nativa de pulsaciones de teclas y movimientos del mouse, lo que la hace bastante general, y representa un paso hacia los agentes generales que usan computadoras», sostiene la gente de OpenAI.
Para hacerlo, usaron el sistema Video PreTraining (VPT), que consiste en recopilar un pequeño conjunto de datos de otros usuarios «donde grabamos no solo su video, sino también las acciones que tomaron, que en nuestro caso son pulsaciones de teclas y movimientos del mouse. Con estos datos entrenamos un modelo de dinámica inversa (IDM), que predice la acción que se está realizando en cada paso del vídeo. Es importante destacar que el IDM puede usar información pasada y futura para adivinar la acción en cada paso. Esta tarea es mucho más fácil y, por lo tanto, requiere muchos menos datos que la tarea de clonación de comportamiento de predecir acciones dados solo fotogramas de video pasados, lo que requiere inferir lo que la persona quiere hacer y cómo lograrlo. Luego podemos usar el IDM entrenado para etiquetar un conjunto de datos mucho más grande de videos en línea y aprender a actuar a través de la clonación conductual».
“Para muchas tareas, nuestros modelos exhiben un rendimiento a nivel humano, y somos los primeros en informar agentes informáticos que pueden fabricar herramientas de diamante, que pueden llevar a los humanos competentes más de 20 minutos (24.000 acciones ambientales) de juego para lograrlo”, escribió OpenAI en su trabajo de investigación que detalla los resultados.
We trained a neural network to competently play Minecraft by pre-training on a large unlabeled video dataset of human Minecraft play and a small amount of labeled contractor data. https://t.co/a2pyBqvLvg pic.twitter.com/XbqtwQSTwU
— OpenAI (@OpenAI) June 23, 2022
«Entrenado en 70,000 horas de video en línea etiquetado con IDM, nuestro modelo de clonación de comportamiento (el «modelo de base VPT») realiza tareas en Minecraft que son casi imposibles de lograr con el aprendizaje por refuerzo desde cero. Aprende a talar árboles para recolectar troncos, elaborar esos troncos en tablones y luego crear esos tablones en una mesa de artesanía; esta secuencia toma a un humano competente en Minecraft aproximadamente 50 segundos o 1,000 acciones de juego consecutivas», concluye OpenAI.