Skip to main content

Probé Gemini Live, que entiende el mundo. Fue impactante

Gemini Live
DTES

Por Nadeem Sarwar de DT en inglés

Es algo desconcertante escuchar a una IA hablando en un tono inquietantemente amigable y diciéndome que limpie el desorden en mi estación de trabajo. Estoy algo orgulloso de ello, pero supongo que es hora de apilar los artilugios dispersos al azar y ordenar el desorden de cables.

Recommended Videos

Mi hermana también estaría de acuerdo. Pero entrar en acción después de que una IA «vea» mi mesa, reconozca el desorden y dé consejos a las amas de casa es el panorama general. El chatbot Gemini AI de Google ahora puede hacer eso. Y mucho más.

La salsa secreta aquí es una actualización de características reciente llamada Project Astra. Ha estado en desarrollo durante años y finalmente comenzó a implementarse a principios de este mes. La idea general es servir a una IA que todo lo ve, todo lo oye y es abiertamente inteligente en su teléfono.

Google pregona estos superpoderes bajo un nombre bastante poco inspirador: Gemini Live con cámara y pantalla compartida. Desarrollado en la unidad DeepMind de la compañía, la compañía comenzó su desarrollo como un «asistente universal de IA». Es una lástima que el nombre final no sea tan aspiracional.

Empecemos por la situación del acceso. La capacidad ya está disponible para los usuarios de Pixel 9 y Galaxy S25. Pero si tiene un teléfono Android con una suscripción Gemini Advanced para acompañarlo, puede acceder al nuevo kit de herramientas.

Eso sería un 20 dólar al mes, por cierto. Lo probé en los dos teléfonos antes mencionados y ahora también lo tengo listo para rodar en mi OnePlus 13. ¿La parte más bonita? No tienes que pasar por ningún aro técnico para acceder a él.

Todo lo que necesitas es un combo de botón de encendido/volumen, o deslizar el dedo en la esquina de la pantalla para invocar a Gemini. Independientemente de la aplicación que esté ejecutando, puede acceder a la nueva cámara y a las funciones de uso compartido de pantalla como una superposición en cada rincón del sistema operativo.

Dar sentido al mundo que te rodea

Empecé apuntando con la cámara a un cuadro y pregunté por él. Gemini Live fue capaz de detectarlo con precisión como una pintura de estilo Madhubani, decodificando el uso audaz de los colores y la representación de animales.

Luego procedió a darme una breve lección de historia y las variaciones que se han desarrollado a lo largo de los años. La información era precisa, hasta el nivel más granular. Afortunadamente, también puedes optar por tener un intercambio de mensajes de texto con Géminis, si estás en un lugar donde las conversaciones de voz pueden ser incómodas.

Lo que más me gusta de la nueva cámara y el avatar de pantalla compartida de Gemini Live es que no es excesivamente hablador. Puede interrumpirlo en cualquier momento, lo que solo se suma al atractivo «natural» de las conversaciones.

Probé Gemini en una variedad de escenarios. No estaba preparado para ello.

Las respuestas que proporciona suelen ser concisas, como si quisiera darte la oportunidad (o incluso un empujón) de hacer una pregunta de seguimiento en lugar de dar una respuesta abrumadoramente larga. Sobresale en una amplia gama de temas y escenarios visuales, pero hay algunas trampas.

Todavía no puede usar Google Lens, lo que significa que Gemini no puede comparar las imágenes que ve en la pantalla de su teléfono con los resultados coincidentes en la web. Además, no puede acceder a la información en tiempo real si le pides a Gemini que busque los últimos desarrollos en torno a un tema o personalidad.

Le pregunté sobre las especies de plantas, los listados de restaurantes, la recopilación de datos de los tablones de anuncios y la comprensión de mi receta médica para un reciente ataque de gripe. A Gemini le fue bastante bien, más de lo que he experimentado que el chatbot de IA funcione hasta ahora.

Desbloqueo de un banco de conocimientos

A continuación, presioné a Gemini para que diera sentido a un material académico complejo. Puse un libro sobre Machine Learning en el encuadre de la cámara. Gemini Live no solo lo reconoció, sino que también procedió a darme una visión general del contenido del libro y sus temas principales.

Curiosamente, comencé a hojear las páginas y aterricé en la lista de capítulos. La IA reconoció el progreso, dejó de hablar y me preguntó si estaba interesado en algún capítulo en particular ahora que estaba revisando la lista de temas.

Me sorprendió en este momento.

Le pedí que desglosara algunos temas complejos, y la IA hizo un trabajo respetable, incluso yendo más allá del alcance del material en la página y extrayendo información de su amplio banco de conocimientos.

Por ejemplo, cuando le pregunté sobre el contenido de la página introductoria de la novela seminal de Bhisham Sahni, Tamas, la IA obtuvo correctamente la mención del Premio Sahitya Akademi. Luego pasó a mencionar detalles que ni siquiera figuraban en la página, como el año en que ganó el prestigioso honor literario y de qué trata el libro.

Por otro lado, la lectura del idioma hindi por Gemini Live fue horrible. No era solo el mal acento, sino el hecho de que Géminis estaba pronunciando puro galimatías y sin palabras repetidamente. Al tratar de leer urdu, persa y árabe, hizo un trabajo considerablemente mejor, pero a menudo mezclaba palabras de líneas aleatorias.

En mi primer intento con la poesía urdu, no solo reconoció el texto en urdu, sino que también dio un resumen preciso del poema. El mayor reto, una vez más, fue la narración. Escuchar una versión inglesa del urdu me dolió mucho los oídos.

Sobresale en lugares sorprendentes

La IA es una herramienta fantástica para resolver problemas, y existen numerosos puntos de referencia que lo demuestran. Lo comparé con problemas de física relacionados con la termodinámica, ecuaciones electroquímicas y problemas estadísticos que aparecían en un cuaderno escrito a mano. Gemini Live hizo un trabajo fantástico en tales tareas.

Incluso se destacaba en las tareas creativas. Mi hermana, que es diseñadora de moda, presentó uno de sus bocetos en la vista de la cámara y pidió comentarios y mejoras. Gemini Live comenzó elogiando el diseño, trazó paralelismos con la ideología de diseño de algunas marcas de moda e hizo un puñado de recomendaciones.

Cuando se le insistió más, la IA también aconsejó a mi hermana sobre las mejores herramientas para convertir bocetos dibujados a mano en conceptos digitales. Siguió esas palabras de orientación al proporcionar información útil sobre la pila de software y dónde se podía encontrar material de aprendizaje.

Cuando puse un par de pilas Duracell en la vista de la cámara, no solo las reconoció con precisión, sino que también me indicó las plataformas de comercio electrónico hiperlocales que pueden entregármelas en minutos.

Los servicios, llamados Blinkit y Swiggy Instamart, solo están disponibles en la India y en su mayoría están reservados para localidades urbanas. Incluso en una habitación con poca luz, fue capaz de identificar un par de auriculares con cable en el primer intento.

La conciencia de la situación es su fuerte.

En comparación con el chat habitual de Gemini o lo que se encuentra en la sección de descripciones generales de IA de la Búsqueda de Google, las conversaciones de Gemini Live adoptan un enfoque más cauteloso para repartir conocimientos, especialmente si son de naturaleza sensible. Me di cuenta de que temas como las recomendaciones de alimentos y el tratamiento médico se manejan con un enfoque cada vez más cauteloso, y a menudo se incita a los usuarios a encontrar el recurso experto adecuado.

Algunas trampas conocidas

Mi conclusión abrumadora es que el cambio de imagen del «Proyecto Astra» de Gemini es muy impresionante. Es un vistazo al futuro de lo que los teléfonos inteligentes pueden lograr. Con algunas mejoras, integraciones y flujos de trabajo entre aplicaciones, puede hacer que la Búsqueda de Google se sienta como una reliquia obsoleta. Pero por ahora, hay algunos defectos evidentes.

En algunas ocasiones, noté que el sistema de memoria se vuelve loco. Cuando se le pidió a la IA que identificara una banda de fitness en la vista de la cámara, la reconoció correctamente como el Samsung Galaxy Fit 3. Pero cuando hice una pregunta de seguimiento, percibió erróneamente que el dispositivo era una pulsera de fitness de Huawei.

También puede mentir descaradamente. Y con bastante confianza, podría decir. Por ejemplo, cuando le dije que resumiera mi reseña del dispositivo portátil, la IA respondió que Digital Trends aún no lo había revisado. En realidad, el artículo fue publicado hace una semana.

A continuación, le pedí que revisara algunos artículos en mi página de autor después de habilitar el uso compartido de pantalla. Géminis hizo un trabajo decente al explicar las historias, pero ocasionalmente tropezó con la comprensión contextual. Por ejemplo, mencionó incorrectamente que solo Intel y AMD pueden fabricar NPU que califiquen para la insignia Copilot+.

El artículo, por otro lado, menciona claramente que Qualcomm fue el primero en cumplir con ese criterio, por delante de la competencia. Y que no fue hasta finales del año pasado cuando AMD e Intel finalmente pudieron subir de nivel y cumplir con esa línea de base de chips de IA con una nueva cartera de procesadores.

A mitad de la conversación sobre un artículo, nuevamente se encontró con un problema de memoria. En lugar de resumir la historia que se estaba discutiendo, volvió a hablar del primer artículo que vio a través de la pantalla compartida. Cuando lo interrumpí a mitad de la narración, Gémini corrigió su error.

Otro problema que noté con la narración de idiomas distintos al inglés es que Gemini Live cambiaba aleatoriamente la voz y el ritmo a mitad de la narración. Era bastante discordante, y la pronunciación era absolutamente mecánica, muy diferente de sus habilidades de conversación en inglés similares a las humanas.

Las luchas de la visión artificial también son evidentes contra las fuentes estilísticas. En algunas ocasiones, escupió con confianza información incorrecta y, cuando se le pidió que se corrigiera, la IA expresó su incapacidad para encontrar la información más reciente sobre ese tema. Esos escenarios son raros, pero los errores de Géminis llegaron para quedarse.

En resumen, creo que Gemini Live con cámara y pantalla compartida es uno de los mayores saltos que la IA ha hecho hasta ahora. Es una de las implementaciones de IA generativa más gratificantes en la práctica hasta ahora. Todo lo que necesita es una pizca de diversidad y una solución para su síndrome del «mentiroso seguro».

Definitivamente, las cosas van por buen camino ahora, y de manera abrumadora, pero aún faltan algunos hitos cruciales para ser el compañero perfecto de la IA de los sueños tecno-futuristas.

«Ayúdame a crear» en Google Docs ahora está en español
una mano sosteniendo un teléfono con la app de Google docs

Google ha anunciado que está actualizando "Ayúdame a crear" en Google Docs para admitir siete idiomas adicionales.

La compañía anunció en una publicación de blog el lunes que está expandiendo la herramienta impulsada por IA poco conocida para hacerla más accesible a los usuarios de Google Docs para quienes el inglés no es su idioma nativo. "Ayúdame a crear" ahora está disponible en los siguientes idiomas: español, portugués, japonés, coreano, italiano, francés y alemán.

Leer más
¿Cómo traducir un documento con Google Translate?
Cómo utilizar Google Translate

Google Translate es una de las mejores herramientas para realizar traducciones. Y aunque la plataforma de Google no ofrece funciones avanzadas como otras herramientas de traducción como Machine Translation o DeepL, Google Translate sobresale por ser totalmente gratuita y capaz de traducir unas 250 lenguas.

Por otra parte, el traductor de Google cuenta con algunas herramientas que pueden resultar útiles. Destaca la la opción para cargar documentos y traducirlos. Si no sabes cómo hacerlo, aquí te decimos paso a paso cómo traducir un documento con Google Translate.
¿Cómo traducir un documento con Google?
Primero, esta función solo está disponible en la versión del Traductor de Google para computadoras, así que ve a translate.google.com.

Leer más
Google Messages finalmente podría solucionar esta molestia frecuente
Google Messages

Aunque la mayoría de los mensajes de texto que normalmente envías pueden tener solo unas pocas palabras, ocasionalmente necesitas redactar un mensaje más largo, y eso puede ser molesto en un dispositivo Android. Google Messages tiene un cuadro de redacción infamemente pequeño, que ha sido una fuente de molestia para muchos usuarios. Ahora, sin embargo, eso parece que va a cambiar, con una nueva función detectada en la última versión beta de la aplicación Mensajes de un cuadro de redacción expandible.

El cambio se detectó en un desmontaje de APK de la última versión beta de Android por parte de Android Authority, lo que sugiere que se está trabajando en un cambio en la forma en que funciona la aplicación Google Messages. Llegar a la nueva caja de composición requirió algunos "retoques", según el sitio, pero pudieron desbloquear una versión de la caja de composición que se puede expandir a 12 líneas de texto en lugar de las cuatro líneas disponibles actualmente.

Leer más