No hace mucho tiempo, se rumoreaba que Apple estaba trabajando internamente en algo llamado Apple GPT, un chatbot basado en el propio modelo de IA de la compañía con el objetivo de emular lo que hace ChatGPT de OpenAI. En los meses siguientes, hemos visto aparecer productos de IA generativa en todas partes, desde Google Pixels y los teléfonos Galaxy S24 de Samsung hasta un advenedizo como el Nothing Phone 2a.
Mientras tanto, todo lo que obtuvimos de Apple fueron afirmaciones vagas pero audaces. El CEO de Apple, Tim Cook, dijo a los inversores que el impulso de la IA generativa de Apple «abrirá nuevos caminos» cuando llegue a finales de este año. Sin embargo, parece que Apple tendrá la ayuda de Google para hacer realidad esos sueños. O tal vez incluso OpenAI venga al rescate.
Según Bloomberg, Apple estaría en conversaciones con Google para licenciar los modelos Gemini AI para iPhones. Esa suena como la misma estrategia que siguió Samsung para los teléfonos de la serie Galaxy S24, que pueden ejecutar el modelo Gemini Nano de Google en el dispositivo, mientras que las versiones más potentes están disponibles en la nube.
Los términos del acuerdo aún no se han finalizado, ya que se dice que las discusiones están muy cambiantes. Sin embargo, según los informes, Apple también está en conversaciones con OpenAI. Cabe recordar que la tecnología básica de OpenAI, como el modelo GPT-4 y Dall-E, está actualmente disponible en todo el conjunto de productos de Microsoft y a través de aplicaciones y servicios independientes como ChatGPT Plus. Es un desarrollo interesante en las ambiciones de IA de Apple, y uno que me tiene emocionado y preocupado a partes iguales.
El viaje de Apple hacia la IA (hasta ahora)
En el último mes de 2023, sin mucha fanfarria, Apple presentó una serie de bibliotecas de modelos y marcos bajo el grupo MLX diseñados para operar en su silicio patentado. Este movimiento está a punto de introducir capacidades de IA generativa en la serie Mac, similar a los esfuerzos de Qualcomm con su plataforma Snapdragon X Elite.
A principios de este año, la división de investigación de Apple dio a conocer un documento sobre una herramienta de IA generativa llamada Keyframer, que permite a los usuarios producir contenido animado. Se basa fundamentalmente en el modelo GPT-4 de OpenAI, pero incorpora gráficos vectoriales para el procesamiento de imágenes fijas.
Además, los expertos de Apple también impulsaron un trabajo de investigación que describe una herramienta de IA que facilita la edición de imágenes a través de instrucciones verbales simples. Esta característica se parece al kit de herramientas de edición de medios asistido por voz promocionado por los últimos chips Snapdragon de Qualcomm.
Un informe posterior de Bloomberg destacó que Apple ha estado aumentando su equipo dedicado responsable de examinar las funcionalidades de IA generativa, con el gran objetivo de hacer que estas herramientas sean accesibles para los desarrolladores para 2024.
Se rumorea que el lote inaugural de funcionalidades de IA generativa de Apple debutará con iOS 18, que se revelará en junio. Pero según el último informe de Bloomberg, esas características están orientadas a los sistemas nativos en el dispositivo y no a las instalaciones de IA generativa que suelen estar conectadas a la nube, como las proporcionadas por ChatGPT, Gemini o Perplexity.
En septiembre, The Information reveló que Apple ha estado desarrollando «modelos básicos» destinados a mejorar Siri. Esta iniciativa es supuestamente similar a la forma en que Gemini está avanzando en el Asistente de Google.
¿Qué podría hacer Gemini en iPhones?
Ahora, Gemini aporta un montón de capacidades a un teléfono mientras se ejecuta localmente y cuando está conectado a Internet. Cuando se implementa en el dispositivo, como es el caso del Google Pixel 8 Pro, puede resumir conversaciones en la aplicación Recorder incluso cuando el teléfono está desconectado.
Para las personas que ejecutan la aplicación de teclado Gboard, Gemini Nano trae Smart Reply a la mesa, comenzando con aplicaciones como WhatsApp. En pocas palabras, lee su conversación y, en consecuencia, sugiere respuestas basadas en el contexto. La IA en el dispositivo también agrega traducciones sin conexión, una característica que ya se está enviando en los teléfonos de la serie Samsung Galaxy S24 listos para Gemini.
En este momento, con la aplicación Gemini instalada en un teléfono, puede realizar las siguientes tareas.
- Al igual que el Asistente de Google o ChatGPT, puedes entablar conversaciones en lenguaje natural con Gemini y obtener ayuda para escribir, generar ideas y mucho más.
- Resuma rápidamente la información de sus correos electrónicos o archivos después de activar la extensión Workspace. La información se puede resumir en formatos como listas, gráficos y tablas.
- Genere imágenes utilizando indicaciones de texto al estilo del motor Dall-E de OpenAI.
- Obtén ayuda para usar tu cámara de nuevas maneras. En la aplicación Gemini, apunta la cámara a una escena y pide a la IA información sobre los objetos del encuadre.
- Comprende lo que hay en tu pantalla. Invoca a Géminis con un comando «Hey Google» para hacer el trabajo. Por ejemplo, puede resumir el artículo que está leyendo actualmente.
- Utiliza Google Maps y Google Flights para planificar viajes e incluso crear rutinas personalizadas.
Cómo podría desarrollarse un acuerdo de IA entre Apple y Google
Como se mencionó anteriormente, Samsung trabajó en estrecha colaboración con Google para que el modelo Gemini Nano AI se ejecutara en sus teléfonos insignia. Pero Géminis no se limita simplemente a los buques insignia. En febrero de este año, MediaTek anunció que su silicio de gama media Dimensity 8300 ahora está optimizado para Google Gemini junto con el buque insignia Dimensity 9300.
Hacer algo similar para Apple no debería ser una gran molestia. Si un acuerdo de licencia en el dispositivo no funciona, siempre existe la ruta de la aplicación. Por ahora, no está claro qué estrategia implementa Apple, suponiendo que el acuerdo se lleve a cabo en primer lugar.
La pregunta más importante es si un acuerdo de licencia de Gemini cambiará significativamente la forma en que los usuarios interactúan con sus iPhones. Y lo que es más importante, ¿Géminis fomentará algún cambio para Siri? Para decirlo sin rodeos, Siri todavía tiene mucho terreno por recorrer antes de que pueda ponerse al día con el Asistente de Google.
Pero entonces, incluso Google no ha descubierto dónde existe Gemini, o reemplaza al Asistente de Google en su totalidad. En este momento, cuando instala Gemini en un teléfono Android, reemplaza al Asistente de Google. O, al menos, lo intenta.
Tu teléfono sigue dependiendo del Asistente de Google para una amplia gama de tareas mundanas pero significativas, como hacer una llamada, configurar una alarma, enviar un mensaje, controlar dispositivos domésticos inteligentes y crear entradas de calendario. Del mismo modo, para la navegación, la escritura por voz en Gboard y Android Auto, el Asistente de Google sigue siendo la IA de confianza, no Gemini.
Además, el Asistente de Google sigue siendo el compañero de IA de referencia en las pantallas inteligentes y los relojes inteligentes Wear OS. Teniendo en cuenta lo estrechamente que Apple entrelaza su software en todo el ecosistema de hardware, especialmente entre los iPhones y el Apple Watch, un enfoque escalonado en el que Gemini, Google Assistant y/o Siri asuman solo una parte de las responsabilidades va a crear mucha confusión para un usuario promedio.
Alternativamente, Apple podría trabajar en estrecha colaboración con Google y crear integraciones exclusivas, vinculando Gemini con funciones del ecosistema de Apple como Siri, Mail, Notas, Safari, Calendario, Salud y más. Sin embargo, dado el estado actual de las políticas de almacenamiento de datos de Gemini, no estamos conteniendo la respiración para una integración tan estrecha a nivel de sistema.
Los riesgos de Gemini para Apple
Por supuesto, Apple se perdió la primera ola de IA generativa en los teléfonos inteligentes, y si hay que creer en los informes, la compañía está trabajando frenéticamente para ponerse al día. Pero un acuerdo de licencia de Gemini también significa que es posible que nunca veamos el propio trabajo de Apple con el desarrollo de IA generativa bajo el proyecto «Ajax». O tal vez solo lo veamos en una forma diluida mientras Gemini hace el trabajo pesado de la IA en los iPhones.
Pero Géminis no está exento de defectos. Por el contrario, ha fallado de manera más asombrosa que cualquier otra herramienta de IA generativa convencional. Hace unas semanas, los usuarios de Gemini notaron que estaba produciendo imágenes extremadamente inexactas, particularmente mal manejando el tono de piel, el origen étnico y la precisión histórica.
La controversia escaló hasta el punto de que Google detuvo la creación de texto a imagen para Gemini. «Para ser claros, eso es completamente inaceptable, y nos equivocamos», escribió el CEO de Google, Sundar Pichai, en un memorando interno, que fue reportado por NPR.
Al otro lado del Atlántico, Gemini se vio envuelto en otra controversia cuando sus comentarios sobre el primer ministro de la India, Narendra, se consideraron despectivos y se volvieron virales en las redes sociales. «Simplemente decir ‘… lo siento, no se probó’ no es consistente con nuestras expectativas de cumplimiento de la ley», advirtió (a través de NDTV) el ministro de la Unión de la India, Rajeev Chandrasekhar.
La controversia volvió a poner la regulación de la IA en el debate y también se emitió un aviso para los principales actores de la IA, exigiéndoles que obtengan una aprobación explícita antes de que herramientas como Gemini se lancen públicamente.
Para una empresa que juega a lo seguro con las regulaciones gubernamentales como Apple, la licencia de Gemini para cientos de millones de dispositivos en todo el mundo no es un riesgo menor. Sobre todo cuando el propio Google advierte de que «Géminis cometerá errores» y dice que siempre hay que comprobar si hay inexactitudes.