Skip to main content

DT en Español podría recibir una comisión si compras un producto desde el sitio

El burdo engaño de Google con su demostración de Gemini

Google Gemini partió con el pie izquierdo, porque en las últimas horas se descubrió que una de las demostraciones en video de la nueva IA capaz de superar según a los de Mountain View a GPT-4, realizó un montaje.

En un artículo de opinión, Bloomberg dice que Google admite que para su video titulado «Hands-on with Gemini: Interacting with multimodal AI», no solo se editó para acelerar las salidas (lo que se declaró en la descripción del video), sino que la interacción de voz implícita entre el usuario humano y la IA era en realidad inexistente.

Hands-on with Gemini: Interacting with multimodal AI

¿Qué se ve en el video?: En 6 minutos muestra las capacidades multimodales de Gemini (indicaciones conversacionales habladas combinadas con reconocimiento de imágenes, por ejemplo). Aparentemente, Gemini reconoce las imágenes rápidamente, incluso para las imágenes que conectan los puntos, responde en segundos y rastrea un fajo de papel en un juego de taza y pelota en tiempo real. Claro, los humanos pueden hacer todo eso, pero esta es una IA capaz de reconocer y predecir lo que sucederá a continuación.

Sin embargo, en la descripción del video se puede leer: «Para los propósitos de esta demostración, la latencia se ha reducido y las salidas de Gemini se han acortado para mayor brevedad».

La demostración de video no ocurrió en tiempo real con indicaciones habladassino que usó fotogramas de imágenes fijas de imágenes sin procesar y luego escribió indicaciones de texto a las que Gemini respondió. «Eso es bastante diferente de lo que Google parecía estar sugiriendo: que una persona podría tener una conversación de voz fluida con Gemini mientras observaba y respondía en tiempo real al mundo que lo rodeaba», escribe Bloomberg.

La respuesta de Google

Really happy to see the interest around our “Hands-on with Gemini” video. In our developer blog yesterday, we broke down how Gemini was used to create it. https://t.co/50gjMkaVc0

We gave Gemini sequences of different modalities — image and text in this case — and had it respond… pic.twitter.com/Beba5M5dHP

— Oriol Vinyals (@OriolVinyalsML) December 7, 2023

Pero para Google no hay engaño. La compañía señaló en una publicación de Oriol Vinyals, vicepresidente de investigación y líder de aprendizaje profundo en DeepMind de Google (también colíder de Gemini), que explica cómo el equipo hizo el video.

«Todas las indicaciones y salidas del usuario en el video son reales, acortadas para mayor brevedad», dice Vinyals. «El video ilustra cómo podrían ser las experiencias de usuario multimodo creadas con Gemini. Lo hicimos para inspirar a los desarrolladores».

Topics
Diego Bastarrica
Diego Bastarrica es periodista y docente de la Universidad Diego Portales de Chile. Especialista en redes sociales…
Sundar Pichai está muy…pero muy avergonzado con Gemini
CEO de Google: La inteligencia artificial debe ser regulada

Con un memorándum interno, el CEO de Google, Sundar Pichai, salió a enfrentar la polémica semana que vivió su IA generativa Gemini, y la mala ejecución de imágenes históricas.

Google suspendió su herramienta de creación de imágenes Gemini la semana pasada después de que generara resultados vergonzosos y ofensivos, en algunos casos negándose a representar a personas blancas, o insertando fotos de mujeres o personas de color cuando se le pidió que creara imágenes de vikingos, nazis y el Papa.

Leer más
El fallo imperdonable de Google Gemini con la generación de imágenes
google gemini fallo imperdonable generacion imagenes nazi im  genes

Un problema mayúsculo ha debido enfrentar Google en las últimas horas por causa de la generación de imágenes de su IA, Gemini.
Todo después que el generador pusiera imágenes de los soldados alemanes de la Segunda Guerra Mundial y a los vikingos como personas de color.

La compañía de tecnología dijo que dejaría de generar imágenes de personas con el modelo Gemini después de que los usuarios de las redes sociales publicaran ejemplos de imágenes generadas por la herramienta que representaban a algunas figuras históricas, incluidos los papas y los padres fundadores de Estados Unidos, en una variedad de etnias y géneros.

Leer más
Google presenta Gemini: su respuesta más poderosa a GPT-4
google gemini

El área de investigación Google DeepMind acaba de lanzar el competidor más poderoso hasta la fecha del popular estándar GPT-4, ya que presentó Google Gemini, su modelo de lenguaje grande más grande y más capaz hasta la fecha. A partir de hoy, el chatbot Bard de la compañía funcionará con una versión de Gemini y estará disponible en inglés en más de 170 países y territorios. Los desarrolladores y clientes empresariales tendrán acceso a Gemini a través de API la próxima semana, y una versión más avanzada estará disponible el próximo año.

¿Google dice que el rendimiento de su modelo más capaz "supera los resultados actuales de última generación en 30 de los 32 puntos de referencia académicos ampliamente utilizados en investigación y desarrollo de LLM". Gemini también obtuvo una puntuación del 90,0% en una prueba conocida como " Comprensión masiva del lenguaje multitarea " o MMLU, que evalúa las capacidades en 57 materias, incluidas matemáticas, física, historia y medicina. Es el primer LLM que se desempeña mejor que los expertos humanos en la prueba, dijo Google.

Leer más