Skip to main content

DT en Español podría recibir una comisión si compras un producto desde el sitio

El burdo engaño de Google con su demostración de Gemini

Google Gemini partió con el pie izquierdo, porque en las últimas horas se descubrió que una de las demostraciones en video de la nueva IA capaz de superar según a los de Mountain View a GPT-4, realizó un montaje.

En un artículo de opinión, Bloomberg dice que Google admite que para su video titulado «Hands-on with Gemini: Interacting with multimodal AI», no solo se editó para acelerar las salidas (lo que se declaró en la descripción del video), sino que la interacción de voz implícita entre el usuario humano y la IA era en realidad inexistente.

Hands-on with Gemini: Interacting with multimodal AI

¿Qué se ve en el video?: En 6 minutos muestra las capacidades multimodales de Gemini (indicaciones conversacionales habladas combinadas con reconocimiento de imágenes, por ejemplo). Aparentemente, Gemini reconoce las imágenes rápidamente, incluso para las imágenes que conectan los puntos, responde en segundos y rastrea un fajo de papel en un juego de taza y pelota en tiempo real. Claro, los humanos pueden hacer todo eso, pero esta es una IA capaz de reconocer y predecir lo que sucederá a continuación.

Recommended Videos

Sin embargo, en la descripción del video se puede leer: «Para los propósitos de esta demostración, la latencia se ha reducido y las salidas de Gemini se han acortado para mayor brevedad».

La demostración de video no ocurrió en tiempo real con indicaciones habladassino que usó fotogramas de imágenes fijas de imágenes sin procesar y luego escribió indicaciones de texto a las que Gemini respondió. «Eso es bastante diferente de lo que Google parecía estar sugiriendo: que una persona podría tener una conversación de voz fluida con Gemini mientras observaba y respondía en tiempo real al mundo que lo rodeaba», escribe Bloomberg.

La respuesta de Google

Really happy to see the interest around our “Hands-on with Gemini” video. In our developer blog yesterday, we broke down how Gemini was used to create it. https://t.co/50gjMkaVc0

We gave Gemini sequences of different modalities — image and text in this case — and had it respond… pic.twitter.com/Beba5M5dHP

— Oriol Vinyals (@OriolVinyalsML) December 7, 2023

Pero para Google no hay engaño. La compañía señaló en una publicación de Oriol Vinyals, vicepresidente de investigación y líder de aprendizaje profundo en DeepMind de Google (también colíder de Gemini), que explica cómo el equipo hizo el video.

«Todas las indicaciones y salidas del usuario en el video son reales, acortadas para mayor brevedad», dice Vinyals. «El video ilustra cómo podrían ser las experiencias de usuario multimodo creadas con Gemini. Lo hicimos para inspirar a los desarrolladores».

Topics
Diego Bastarrica
Diego Bastarrica es periodista y docente de la Universidad Diego Portales de Chile. Especialista en redes sociales…
5 cosas increíbles que puedes hacer con Google Gemini Advanced
cosas increibles que puedes hacer con google gemini advanced advance

Gemini Advanced ha estado en el centro de atención de la IA de Google desde que se dio a conocer en febrero, proporcionando una experiencia de IA más premium que se integra directamente en todas sus aplicaciones favoritas de Google.

Se sabe que Gemini Advanced es mucho más "capaz en tareas altamente complejas" que la versión gratuita de Gemini, con habilidades que incluyen "codificación, razonamiento lógico, seguimiento de instrucciones matizadas y colaboración creativa, entre muchas otras". Es muy parecido al Copilot Pro de Microsoft, excepto que está hecho para el ecosistema de aplicaciones de Google.
Acceso fácil a Gemini Advanced en Google Apps
Google
Una de las principales ventajas de Gemini Advanced es su perfecta integración en las aplicaciones de Google. Si utilizas Google Docs, Gmail, Hojas de cálculo o cualquier otra aplicación que se beneficie de la IA, encontrarás el icono de Preguntar a Géminis en forma de diamante en la esquina superior derecha junto al icono de Cuentas.

Leer más
Google contraataca con su propio modelo de IA ligero
google modelo ia ligero gemini 1 5 flash

Google anunció el jueves que lanzará Gemini 1.5 Flash, su modelo de lenguaje grande del tamaño de un bocadillo y el mini competidor de ChatGPT-4o, para todos los usuarios, independientemente de su nivel de suscripción.

La compañía promete "mejoras en todos los ámbitos" en términos de calidad de respuesta y latencia, así como "mejoras especialmente notables en el razonamiento y la comprensión de imágenes".

Leer más
Con IA se puede: Google observa píxeles para crear bandas sonoras
google deep mind video audio

Deep Mind de Google
Deep Mind mostró el martes los últimos resultados de su investigación generativa de video a audio de IA. Es un sistema novedoso que combina lo que ve en pantalla con la indicación escrita del usuario para crear paisajes sonoros de audio sincronizados para un videoclip determinado.

La IA V2A se puede emparejar con modelos de generación de video como Veo, escribió el equipo de audio generativo de Deep Mind en una publicación de blog, y puede crear bandas sonoras, efectos de sonido e incluso diálogos para la acción en pantalla. Además, Deep Mind afirma que su nuevo sistema puede generar "un número ilimitado de bandas sonoras para cualquier entrada de video" ajustando el modelo con indicaciones positivas y negativas que fomentan o desalientan el uso de un sonido en particular, respectivamente.

Leer más