Skip to main content
  1. Home
  2. Tendencias
  3. Noticias
  4. News

Gemini AI está haciendo que los robots en la oficina sean geniales

Un robot cotidiano navegando por una oficina.

¿Perdido en un edificio de oficinas, una gran tienda o un almacén desconocidos? Solo tienes que preguntar al robot más cercano para obtener indicaciones.

Un equipo de investigadores de Google combinó los poderes del procesamiento del lenguaje natural y la visión por computadora para desarrollar un nuevo medio de navegación robótica como parte de un nuevo estudio publicado el miércoles.

Recommended Videos

Esencialmente, el equipo se propuso enseñar a un robot, en este caso un robot cotidiano, cómo navegar a través de un espacio interior utilizando indicaciones de lenguaje natural y entradas visuales. La navegación robótica solía requerir que los investigadores no solo trazaran el entorno con anticipación, sino que también proporcionaran coordenadas físicas específicas dentro del espacio para guiar a la máquina. Los avances recientes en lo que se conoce como navegación Vision Language han permitido a los usuarios simplemente dar a los robots comandos de lenguaje natural, como «ir al banco de trabajo». Los investigadores de Google están llevando ese concepto un paso más allá al incorporar capacidades multimodales, de modo que el robot pueda aceptar instrucciones de lenguaje natural e imágenes al mismo tiempo. REVISA ACÁ EL REEL DE INSTAGRAM CON EL VIDEO.

Por ejemplo, un usuario en un almacén podría mostrarle al robot un artículo y preguntarle: «¿En qué estante va esto?» Aprovechando el poder de Gemini 1.5 Pro, la IA interpreta tanto la pregunta hablada como la información visual para formular no solo una respuesta, sino también una ruta de navegación para llevar al usuario al lugar correcto en el piso del almacén. Los robots también se probaron con comandos como: «Llévame a la sala de conferencias con puertas dobles», «¿Dónde puedo pedir prestado un poco de desinfectante para manos?» y «Quiero guardar algo fuera de la vista del público». ¿A dónde debo ir?»

O, en el reel de Instagram de arriba, un investigador activa el sistema con un «robot OK» antes de pedir que lo lleven a algún lugar donde «pueda dibujar». El robot responde con un «dame un minuto. Pensando con Géminis…» antes de salir rápidamente a través de la oficina de DeepMind de 9,000 pies cuadrados en busca de una gran pizarra montada en la pared.

Para ser justos, estos robots pioneros ya estaban familiarizados con el diseño del espacio de oficinas. El equipo utilizó una técnica conocida como «Navegación de Instrucción Multimodal con Recorridos de Demostración (MINT)». Esto implicó que el equipo primero guiara manualmente al robot por la oficina, señalando áreas y características específicas utilizando lenguaje natural, aunque se puede lograr el mismo efecto simplemente grabando un video del espacio con un teléfono inteligente. A partir de ahí, la IA genera un gráfico topológico en el que trabaja para hacer coincidir lo que ven sus cámaras con el «marco objetivo» del vídeo de demostración.

A continuación, el equipo emplea una política de navegación jerárquica de Visión-Lenguaje-Acción (VLA) «que combina la comprensión del entorno y el razonamiento de sentido común», para instruir a la IA sobre cómo traducir las solicitudes de los usuarios en acciones de navegación.

Los resultados fueron muy exitosos, ya que los robots lograron «tasas de éxito de extremo a extremo del 86 por ciento y el 90 por ciento en tareas de navegación previamente inviables que involucraban razonamientos complejos e instrucciones de usuario multimodales en un gran entorno del mundo real», escribieron los investigadores.

Sin embargo, reconocen que todavía hay margen de mejora, señalando que el robot no puede (todavía) realizar de forma autónoma su propio recorrido de demostración y señalando que el tiempo de inferencia desgarbado de la IA (cuánto tiempo tarda en formular una respuesta) de 10 a 30 segundos convierte la interacción con el sistema en un estudio de paciencia.

Diego Bastarrica
Diego Bastarrica es periodista y docente de la Universidad Diego Portales de Chile. Especialista en redes sociales…
Pornhub resumen 2025: las búsquedas más secretas y prohibidas de internet
Text, Number, Symbol

El informe anual "Year in Review" de Pornhub, plataforma de entretenimiento adulto más grande del mundo, reveló un panorama fascinante de las tendencias de búsqueda y consumo de contenido en 2025, año marcado por cambios políticos significativos a nivel mundial que impactaron tanto las preferencias de usuarios como la disponibilidad de la plataforma en ciertos mercados. Los datos, compilados a partir de miles de millones de búsquedas, ofrecen una ventana sin filtros a los intereses y fantasías del público global, documentando no solo cambios en gustos sino también transformaciones culturales más amplias.

Hentai se consolida como reinante indiscutible durante cinco años consecutivos

Read more
Bullying a McDonald’s tras usar IA en una publicidad que tuvo que bajar
Machine, Wheel, Adult

El mundo publicitario ha comenzado a cuestionarse seriamente si la apuesta por la inteligencia artificial generativa es realmente la solución milagrosa que prometía ser. Ese debate se intensificó esta semana cuando McDonald's retiró su anuncio navideño creado íntegramente con IA tras una avalancha de críticas en redes sociales, exponiendo las grietas en una estrategia corporativa que parecía moderna pero que resultó en una experiencia visual inquietante.

La campaña, desarrollada por la agencia TBWANeboko y producida por The Sweetshop para la división holandesa de la cadena de comida rápida, fue concebida como un experimento audaz. El spot de 45 segundos reinterpretaba la Navidad no como la época tradicional de magia y calidez, sino como "la época más terrible del año", reflejando el estrés y el caos que muchos consumidores experimentan durante diciembre. Con un presupuesto y recursos que cualquier marca de envergadura mundial podría justificar, los responsables del proyecto prometían una producción completamente generada por IA que mantuviera el nivel de calidad cinematográfica.​

Read more
GenAI.mil y el inicio de la militarización de Gemini de Google
Militares

El Departamento de Defensa de Estados Unidos anunció oficialmente el martes el lanzamiento de GenAI.mil, una plataforma en línea que pone directamente en manos de cada soldado y personal civil del Pentágono las capacidades más avanzadas de inteligencia artificial generativa que existen en el mercado. El secretario de Guerra, Pete Hegseth, presentó el sistema como una herramienta revolucionaria diseñada para "revolucionar la forma en que ganamos" en el contexto de la competencia tecnológica global.​

La plataforma, desarrollada sobre la base de Google Gemini for Government, promete transformar no solamente la burocracia administrativa del ejército, sino potencialmente también las operaciones tácticas, la inteligencia y la toma de decisiones estratégicas. Según Hegseth, GenAI.mil permitirá a los usuarios empleados por las fuerzas armadas "realizar investigaciones, formatear documentos y analizar imágenes o videos a una velocidad sin precedentes". El funcionario no fue modesto en sus aspiraciones para el sistema: declaró que "las posibilidades con la IA son infinitas" y subrayó que el Pentágono no podía permitirse quedar rezagado en la carrera global por el dominio de la inteligencia artificial.​

Read more