Skip to main content

Gemini AI está haciendo que los robots en la oficina sean geniales

Un robot cotidiano navegando por una oficina.

¿Perdido en un edificio de oficinas, una gran tienda o un almacén desconocidos? Solo tienes que preguntar al robot más cercano para obtener indicaciones.

Un equipo de investigadores de Google combinó los poderes del procesamiento del lenguaje natural y la visión por computadora para desarrollar un nuevo medio de navegación robótica como parte de un nuevo estudio publicado el miércoles.

Recommended Videos

Esencialmente, el equipo se propuso enseñar a un robot, en este caso un robot cotidiano, cómo navegar a través de un espacio interior utilizando indicaciones de lenguaje natural y entradas visuales. La navegación robótica solía requerir que los investigadores no solo trazaran el entorno con anticipación, sino que también proporcionaran coordenadas físicas específicas dentro del espacio para guiar a la máquina. Los avances recientes en lo que se conoce como navegación Vision Language han permitido a los usuarios simplemente dar a los robots comandos de lenguaje natural, como «ir al banco de trabajo». Los investigadores de Google están llevando ese concepto un paso más allá al incorporar capacidades multimodales, de modo que el robot pueda aceptar instrucciones de lenguaje natural e imágenes al mismo tiempo. REVISA ACÁ EL REEL DE INSTAGRAM CON EL VIDEO.

Por ejemplo, un usuario en un almacén podría mostrarle al robot un artículo y preguntarle: «¿En qué estante va esto?» Aprovechando el poder de Gemini 1.5 Pro, la IA interpreta tanto la pregunta hablada como la información visual para formular no solo una respuesta, sino también una ruta de navegación para llevar al usuario al lugar correcto en el piso del almacén. Los robots también se probaron con comandos como: «Llévame a la sala de conferencias con puertas dobles», «¿Dónde puedo pedir prestado un poco de desinfectante para manos?» y «Quiero guardar algo fuera de la vista del público». ¿A dónde debo ir?»

O, en el reel de Instagram de arriba, un investigador activa el sistema con un «robot OK» antes de pedir que lo lleven a algún lugar donde «pueda dibujar». El robot responde con un «dame un minuto. Pensando con Géminis…» antes de salir rápidamente a través de la oficina de DeepMind de 9,000 pies cuadrados en busca de una gran pizarra montada en la pared.

Para ser justos, estos robots pioneros ya estaban familiarizados con el diseño del espacio de oficinas. El equipo utilizó una técnica conocida como «Navegación de Instrucción Multimodal con Recorridos de Demostración (MINT)». Esto implicó que el equipo primero guiara manualmente al robot por la oficina, señalando áreas y características específicas utilizando lenguaje natural, aunque se puede lograr el mismo efecto simplemente grabando un video del espacio con un teléfono inteligente. A partir de ahí, la IA genera un gráfico topológico en el que trabaja para hacer coincidir lo que ven sus cámaras con el «marco objetivo» del vídeo de demostración.

A continuación, el equipo emplea una política de navegación jerárquica de Visión-Lenguaje-Acción (VLA) «que combina la comprensión del entorno y el razonamiento de sentido común», para instruir a la IA sobre cómo traducir las solicitudes de los usuarios en acciones de navegación.

Los resultados fueron muy exitosos, ya que los robots lograron «tasas de éxito de extremo a extremo del 86 por ciento y el 90 por ciento en tareas de navegación previamente inviables que involucraban razonamientos complejos e instrucciones de usuario multimodales en un gran entorno del mundo real», escribieron los investigadores.

Sin embargo, reconocen que todavía hay margen de mejora, señalando que el robot no puede (todavía) realizar de forma autónoma su propio recorrido de demostración y señalando que el tiempo de inferencia desgarbado de la IA (cuánto tiempo tarda en formular una respuesta) de 10 a 30 segundos convierte la interacción con el sistema en un estudio de paciencia.

Diego Bastarrica
Diego Bastarrica es periodista y docente de la Universidad Diego Portales de Chile. Especialista en redes sociales…
Google retira polémico comercial de Gemini en los Juegos Olímpicos
google polemico comercial gemini ai juegos olimpicos jjoo

Una polémica está viviendo Google en las últimas horas, luego de que dedicara sacar del aire un comercial para la televisión sobre su producto estrella Gemini AI que estaba programado para los Juegos Olímpicos de París 2024.

La publicidad tenía como protagonista a un padre (en voz en off) que escribía una carta usando Gemini para su hija quien admira a la atleta Sydney McLaughlin-Levrone.
"Si bien el anuncio se probó bien antes de emitirse, dados los comentarios, hemos decidido eliminar gradualmente el anuncio de nuestra rotación olímpica", dijo un portavoz de Google a The Hollywood Reporter.
Google + Team USA — Dear Sydney
"Soy bastante bueno con las palabras, pero esto tiene que ser perfecto", dice antes de pedirle a Gemini que la ayude a escribir la carta.
Esto provocó malos comentarios en redes sociales y de parte de la audiencia, que acusaron que un momento tan humano y emotivo terminara mecanizado por una inteligencia artificial.
"Este anuncio me da ganas de lanzar un palo a la televisión cada vez que lo veo", escribió Alexandra Petri de The Washington Post.
Google es uno de los grandes patrocinadores de NBC para los Juegos Olímpicos.

Leer más
Google Gemini está a punto de ser mucho más útil en tu celular Android
google gemini mas util celular android

Google no planea dar con Gemini en el corto plazo. Después de mostrar por primera vez una serie de nuevas extensiones durante Google I/O 2024, un reciente desmontaje de APK de Android Authority ha revelado un montón de nuevas funciones útiles y no anunciadas de Gemini que pronto llegarán a su teléfono Android. Se espera que Gemini obtenga una variedad de nuevas extensiones que permitirán la integración en servicios de Google como Keep, Tasks y Calendar.

Cada una de las extensiones parece proporcionar funciones útiles, y Android Authority tiene videos de demostración que muestran cada una. Con Google Keep, ahora puede pedirle a Gemini que cree nuevas notas y listas, agregue información a las notas y agregue o elimine elementos de las listas. Google Tasks ahora te permite usar Gemini para crear nuevas tareas, incluidos recordatorios. También le permitirá ver las tareas existentes y mostrar sus fechas de vencimiento.

Leer más
Para qué está usando IA la NASA en la exploración de Marte
Imagen de la roca del cráter Jezeero perforada por Perseverance.

Los ingenieros espaciales han estado utilizando la IA en los rovers desde hace algún tiempo, de ahí que los exploradores de Marte de hoy en día puedan elegir un lugar de aterrizaje seguro y conducir por una región de forma autónoma. Pero algo que no han podido hacer antes es hacer ciencia ellos mismos, ya que la mayor parte de ese trabajo lo realizan científicos en la Tierra que analizan datos y apuntan el rover hacia los objetivos que quieren investigar.

Ahora, sin embargo, el rover Perseverance de la NASA está dando los primeros pasos hacia la investigación científica autónoma en Marte. El rover ha estado probando una capacidad de IA durante los últimos tres años, lo que le permite buscar e identificar minerales particulares en las rocas de Marte. El sistema funciona utilizando el instrumento PIXL (Instrumento Planetario para la Litoquímica de Rayos X) del rover, un espectrómetro que utiliza la luz para analizar de qué están hechas las rocas. El software, llamado muestreo adaptativo, examina los datos de PIXL e identifica los minerales que deben estudiarse con más detalle.

Leer más