Investigadores de Columbia Engineering han entrenado a un robot humanoide llamado Emo para hacer playback de habla y canciones estudiando vídeos en línea, mostrando cómo las máquinas pueden ahora aprender comportamientos humanos complejos simplemente observándolos.
El emo no es un cuerpo humanoide completo, sino un rostro robótico altamente realista diseñado para explorar cómo se comunican los humanos. El rostro está cubierto con piel de silicona y es accionado por 26 motores faciales controlados de forma independiente que mueven los labios, la mandíbula y las mejillas.
Estos motores permiten al emo formar formas detalladas de boca que cubren 24 consonantes y 16 vocales, lo cual es fundamental para el habla y el canto naturales. El objetivo era reducir el efecto valle inquietante, donde los robots parecen casi humanos pero aún así resultan inquietantes porque sus movimientos faciales no coinciden con su voz.
Cómo el emo aprendió a hacer lip sync como un humano
El proceso de aprendizaje se desarrolló por etapas. Primero, el emo exploró su propio rostro moviendo sus motores mientras se miraba en un espejo. Esto ayudó al sistema a entender cómo los comandos motores cambian la forma de los rostros.
Los investigadores introdujeron entonces una cadena de aprendizaje que conecta el sonido con el movimiento. Emo vio horas de vídeos en YouTube de personas hablando y cantando, mientras un modelo de IA analizaba la relación entre el audio y el movimiento visible de los labios.
En lugar de centrarse en el lenguaje o el significado, el sistema estudiaba los sonidos crudos del habla. Un transformador de acción facial convertía esos patrones aprendidos en comandos motores en tiempo real.
Este enfoque permitió a Emo hacer playback no solo en inglés, sino también en idiomas en los que nunca se había entrenado, incluyendo francés, árabe y chino. El mismo método funcionaba para el canto, que es más difícil debido a las vocales estiradas y los cambios de ritmo.

Los investigadores dicen que esto es importante porque los robots del futuro tendrán que comunicarse de forma natural si quieren trabajar junto a personas. Este avance ha llegado cuando el interés por los robots para hogares y lugares de trabajo está creciendo rápidamente.
En el CES 2026, ese impulso se mostró por completo, con demostraciones que iban desde el humanoide Atlas de Boston Dynamics, listo para entrar en el lugar de trabajo, hasta el robot de SwitchBot enfocado en el hogar que puede cocinar comidas, y el próximo robot asistente doméstico de LG diseñado para facilitar la vida diaria.
Añadiendo avances como la piel artificial que otorga a los robots una sensibilidad humana, y junto con sincronización labial realista, es fácil ver cómo los robots empiezan a sentirse menos como máquinas y más como compañeros sociales. El emo sigue siendo un proyecto de investigación, pero muestra cómo los robots podrían algún día aprender habilidades humanas igual que nosotros, observando y escuchando.