Skip to main content
  1. Home
  2. Tendencias
  3. Noticias
  4. News

Gemini AI está haciendo que los robots en la oficina sean geniales

Add as a preferred source on Google
Un robot cotidiano navegando por una oficina.

¿Perdido en un edificio de oficinas, una gran tienda o un almacén desconocidos? Solo tienes que preguntar al robot más cercano para obtener indicaciones.

Un equipo de investigadores de Google combinó los poderes del procesamiento del lenguaje natural y la visión por computadora para desarrollar un nuevo medio de navegación robótica como parte de un nuevo estudio publicado el miércoles.

Recommended Videos

Esencialmente, el equipo se propuso enseñar a un robot, en este caso un robot cotidiano, cómo navegar a través de un espacio interior utilizando indicaciones de lenguaje natural y entradas visuales. La navegación robótica solía requerir que los investigadores no solo trazaran el entorno con anticipación, sino que también proporcionaran coordenadas físicas específicas dentro del espacio para guiar a la máquina. Los avances recientes en lo que se conoce como navegación Vision Language han permitido a los usuarios simplemente dar a los robots comandos de lenguaje natural, como «ir al banco de trabajo». Los investigadores de Google están llevando ese concepto un paso más allá al incorporar capacidades multimodales, de modo que el robot pueda aceptar instrucciones de lenguaje natural e imágenes al mismo tiempo. REVISA ACÁ EL REEL DE INSTAGRAM CON EL VIDEO.

Por ejemplo, un usuario en un almacén podría mostrarle al robot un artículo y preguntarle: «¿En qué estante va esto?» Aprovechando el poder de Gemini 1.5 Pro, la IA interpreta tanto la pregunta hablada como la información visual para formular no solo una respuesta, sino también una ruta de navegación para llevar al usuario al lugar correcto en el piso del almacén. Los robots también se probaron con comandos como: «Llévame a la sala de conferencias con puertas dobles», «¿Dónde puedo pedir prestado un poco de desinfectante para manos?» y «Quiero guardar algo fuera de la vista del público». ¿A dónde debo ir?»

O, en el reel de Instagram de arriba, un investigador activa el sistema con un «robot OK» antes de pedir que lo lleven a algún lugar donde «pueda dibujar». El robot responde con un «dame un minuto. Pensando con Géminis…» antes de salir rápidamente a través de la oficina de DeepMind de 9,000 pies cuadrados en busca de una gran pizarra montada en la pared.

Para ser justos, estos robots pioneros ya estaban familiarizados con el diseño del espacio de oficinas. El equipo utilizó una técnica conocida como «Navegación de Instrucción Multimodal con Recorridos de Demostración (MINT)». Esto implicó que el equipo primero guiara manualmente al robot por la oficina, señalando áreas y características específicas utilizando lenguaje natural, aunque se puede lograr el mismo efecto simplemente grabando un video del espacio con un teléfono inteligente. A partir de ahí, la IA genera un gráfico topológico en el que trabaja para hacer coincidir lo que ven sus cámaras con el «marco objetivo» del vídeo de demostración.

A continuación, el equipo emplea una política de navegación jerárquica de Visión-Lenguaje-Acción (VLA) «que combina la comprensión del entorno y el razonamiento de sentido común», para instruir a la IA sobre cómo traducir las solicitudes de los usuarios en acciones de navegación.

Los resultados fueron muy exitosos, ya que los robots lograron «tasas de éxito de extremo a extremo del 86 por ciento y el 90 por ciento en tareas de navegación previamente inviables que involucraban razonamientos complejos e instrucciones de usuario multimodales en un gran entorno del mundo real», escribieron los investigadores.

Sin embargo, reconocen que todavía hay margen de mejora, señalando que el robot no puede (todavía) realizar de forma autónoma su propio recorrido de demostración y señalando que el tiempo de inferencia desgarbado de la IA (cuánto tiempo tarda en formular una respuesta) de 10 a 30 segundos convierte la interacción con el sistema en un estudio de paciencia.

Diego Bastarrica
Diego Bastarrica es Senior Editor y Head of Content en Digital Trends en Español, donde lidera la estrategia editorial, SEO…
OpenAI ofrecería al gobierno de EE.UU. una participación del 5%
Sam Altman

OpenAI propuso entregar al gobierno de Estados Unidos una participación accionaria del 5% en la compañía, según reveló el Financial Times este jueves. Dicha porción equivaldría a unos USD 42,600 millones, tomando como referencia la valorización de USD 852,000 millones que alcanzó la empresa tras su ronda de financiamiento de marzo.

El director ejecutivo Sam Altman planteó que otorgar al público un interés financiero directo en la compañía sería la mejor manera de compartir los beneficios derivados de la inteligencia artificial. La propuesta, discutida en etapas preliminares con la administración Trump, contemplaría que Washington reciba un 5% de cada uno de los principales desarrolladores estadounidenses de IA a través de un vehículo gubernamental similar a un fondo soberano.

Read more
Starlink ofrece descuento de 50% a vecinos de sus centros de datos
Furniture, Table, Desk

SpaceX anunció que los residentes de Memphis y Southaven, en Tennessee, podrán acceder a un descuento del 50% en sus planes de Starlink, además de la exención del cobro por el arriendo del equipo, como parte de una estrategia de la compañía para "invertir" en las comunidades cercanas a sus centros de datos . Según el sitio oficial de Starlink, la rebaja se aplicará de forma automática según la dirección del suscriptor, lo que reduce el costo del plan de 100 Mbps de 55 a 27,5 dólares mensuales, mientras que el plan Max, que alcanza velocidades superiores a los 400 Mbps, bajaría de 130 a 65 dólares al mes.

El vicepresidente sénior de Starlink, Michael Nicolls, confirmó la medida a través de la red social X, señalando que "las capacidades únicas de los centros de datos Colossus no podrían haberse logrado sin la colaboración y el respaldo de la comunidad local de Memphis" . Por su parte, Elon Musk también se refirió al anuncio en la misma plataforma, calificándolo como una forma de compensar a los vecinos de la zona.

Read more
Científicos de IA alertan por un posible “momento Chernóbil” tecnológico
Chernóbil

Varios de los principales investigadores del sector están cada vez más preocupados por un escenario extremo: que un avance descontrolado en inteligencia artificial provoque un daño masivo o incluso una reacción global contra la tecnología. La expresión “momento Chernóbil” aparece como metáfora de un evento catastrófico que cambie para siempre la percepción pública sobre la IA.

La alarma no se basa solo en teorías abstractas. El debate sobre los riesgos existenciales de la IA viene creciendo desde hace años y ha ganado fuerza a medida que los modelos se vuelven más capaces, autónomos y difíciles de auditar por completo. Distintas voces académicas han advertido que una IA general podría tomar decisiones no alineadas con los objetivos humanos si no existen límites claros, supervisión internacional y mecanismos de control efectivos.

Read more