Skip to main content

¿Qué es Apple Ferret y por qué cambiaría tu iPhone para siempre?

Un iPhone 15 Pro Max tumbado boca arriba, mostrando su pantalla de inicio.
Joe Maring / DT

En los últimos meses, Apple ha publicado un flujo constante de artículos de investigación que detallan su trabajo con la IA generativa. Hasta ahora, Apple ha mantenido la boca cerrada sobre qué es exactamente lo que se está cocinando en sus laboratorios de investigación, mientras que circulan rumores de que Apple está en conversaciones con Google para licenciar su Gemini AI para iPhones.

Pero ha habido un par de adelantos de lo que podemos esperar. En febrero, un documento de investigación de Apple detalló un modelo de código abierto llamado MLLM-Guided Image Editing (MGIE) que es capaz de editar medios utilizando instrucciones de lenguaje natural de los usuarios. Ahora, otro trabajo de investigación sobre la interfaz de usuario de Ferret ha hecho que la comunidad de IA se vuelva loca.

La idea es implementar una IA multimodal (que entienda textos y activos multimedia) para comprender mejor los elementos de una interfaz de usuario móvil. y lo más importante, ofrecer consejos prácticos. Ese es un objetivo crítico a medida que los ingenieros compiten para hacer que la IA sea más útil para un usuario promedio de teléfonos inteligentes que el estado actual de «truco de salón».

En esa dirección, el mayor impulso es desconectar las capacidades de IA generativa de la nube, poner fin a la necesidad de una conexión a Internet e implementar cada tarea en el dispositivo para que sea más rápido y seguro. Tomemos, por ejemplo, Gemini de Google, que se ejecuta localmente en los teléfonos de las series Google Pixel y Samsung Galaxy S24 -y pronto, en los teléfonos OnePlus- y realiza tareas como el resumen y la traducción.

¿Qué es la interfaz de usuario de Ferret de Apple?

Tarjetas de características de la interfaz de usuario de Apple Ferret.
Apple

Con Ferret-UI, Apple aparentemente tiene como objetivo combinar la inteligencia de un modelo de IA multimodal con iOS. En este momento, la atención se centra en tareas más «elementales» como «reconocimiento de iconos, búsqueda de texto y lista de widgets». Sin embargo, no se trata solo de dar sentido a lo que se muestra en la pantalla de un iPhone, sino también de entenderlo lógicamente y responder a las consultas contextuales planteadas por los usuarios a través de sus capacidades de razonamiento.

La forma más fácil de describir las capacidades de la interfaz de usuario de Ferret es como un sistema inteligente de reconocimiento óptico de caracteres (OCR) impulsado por IA. «Después de entrenar con los conjuntos de datos seleccionados, Ferret-UI exhibe una comprensión sobresaliente de las pantallas de la interfaz de usuario y la capacidad de ejecutar instrucciones abiertas», señala el artículo de investigación. El equipo detrás de Ferret UI lo ha ajustado para adaptarse a «cualquier resolución».

Puedes hacer preguntas como «¿Es esta aplicación segura para mi hijo de 12 años?» mientras navegas por la App Store. En tales situaciones, la IA leerá la clasificación por edades de la aplicación y, en consecuencia, proporcionará la respuesta. No se especifica cómo se serviría la respuesta, texto o audio, ya que el documento no menciona a Siri ni a ningún asistente virtual.

Apple no se alejó demasiado del árbol GPT

Información general sobre la interfaz de usuario de Apple Ferret.
Apple

Pero las ideas son mucho más panorámicas e inteligentes. Pregúntale «¿Cómo puedo compartir la aplicación con un amigo?» y la IA resaltará el icono de «compartir» en la pantalla. Por supuesto, le dará una idea general de lo que parpadea en la pantalla, pero al mismo tiempo, analizará lógicamente los activos visuales en la pantalla, como cuadros, botones, imágenes, íconos y más. Esa es una gran victoria de accesibilidad.

Si desea escuchar los términos técnicos, bueno, el documento se refiere a estas capacidades como «conversación de percepción», «inferencia funcional» y «conversación de interacción». Una de las descripciones del trabajo de investigación resume perfectamente las posibilidades de la interfaz de usuario de Ferret, describiéndola como «el primer MLLM diseñado para ejecutar tareas precisas de referencia y conexión a tierra específicas de las pantallas de interfaz de usuario, mientras interpreta hábilmente y actúa sobre instrucciones de lenguaje abiertas».

La interfaz de usuario de Apple Ferret responde a preguntas que tienen en cuenta la pantalla.
Apple

Como resultado, puede describir capturas de pantalla, decir qué hace un activo en particular cuando se toca y discernir si algo en la pantalla es interactivo con entradas táctiles. Ferret UI no es únicamente un proyecto interno. En cambio, para la parte de razonamiento y descripción, se basa en la tecnología GPT-4 de OpenAI, que impulsa ChatGPT, junto con un montón de otros productos conversacionales que existen.

En particular, la versión particular propuesta en el documento es adecuada para múltiples relaciones de aspecto. Además de sus capacidades de análisis y razonamiento en pantalla, el documento de investigación también describe algunas capacidades avanzadas que son bastante sorprendentes de imaginar. Por ejemplo, en la siguiente captura de pantalla, parece capaz no solo de analizar texto escrito a mano, sino que también puede predecir la versión correcta a partir del garabato mal escrito del usuario.

Interfaz de usuario de Apple Ferret que reconoce texto.
Apple

También es capaz de leer con precisión el texto que está cortado en el borde superior o inferior y que, de otro modo, requeriría un desplazamiento vertical. Sin embargo, no es perfecto. En ocasiones, identifica erróneamente un botón como una pestaña y lee erróneamente los recursos que combinan imágenes y texto en un solo bloque.

Cuando se enfrentó al modelo GPT-4V de OpenAI, la interfaz de usuario de Ferret ofreció un nivel impresionante de resultados de interacción conversacional cuando se le hicieron preguntas relacionadas con el contenido en pantalla. Como se puede ver en la imagen de abajo, Ferret UI prefiere respuestas más concisas y directas, mientras que GPT-4V escribe respuestas más detalladas.

La elección es subjetiva, pero si le preguntara a una IA: «¿Cómo compro la zapatilla que aparece en la pantalla?», preferiría que me diera los pasos correctos en la menor cantidad de palabras posible. Pero Ferret UI funcionó admirablemente no solo para mantener las cosas concisas, sino también para ser precisas. En la tarea antes mencionada, Ferret UI obtuvo una puntuación del 91,7% en los resultados de interacción conversacional, mientras que GPT-4V estaba solo ligeramente por delante con un 93,4% de precisión.

Un universo de posibilidades intrigantes

Accesos directos a la interfaz de usuario de Apple Ferret
Apple

La interfaz de usuario marca un impresionante debut de la IA que puede dar sentido a las acciones en pantalla. Ahora, antes de que nos entusiasmemos demasiado con las posibilidades aquí, no estamos seguros de cómo exactamente Apple pretende integrar esto con iOS, o si se materializará en absoluto, por múltiples razones. Bloomberg informó recientemente que Apple era consciente de estar rezagada en la carrera de la IA, y eso es bastante evidente por la falta de productos nativos de IA generativa en el ecosistema de Apple.

En primer lugar, los rumores de que Apple incluso está considerando un acuerdo de licencia de Gemini con Google u OpenAI son una señal de que el propio trabajo de Apple no está al mismo nivel que el de la competencia. En tal escenario, aprovechar el trabajo que Google ya ha hecho con Gemini (que ahora está tratando de reemplazar al Asistente de Google en los teléfonos) sería más inteligente que impulsar un producto de IA a medias en iPhones y iPads.

Apple claramente tiene ideas ambiciosas y continúa trabajando en ellas, como lo demuestran los experimentos detallados en múltiples trabajos de investigación. Sin embargo, incluso si Apple logra cumplir las promesas de la interfaz de usuario de Ferret dentro de iOS, aún equivaldría a una implementación superficial de IA generativa en el dispositivo.

Interfaz de usuario de Apple Ferret leyendo contenido en pantalla.
Apple

Sin embargo, las integraciones funcionales, incluso si se limitan solo a aplicaciones internas preinstaladas, podrían producir resultados sorprendentes. Por ejemplo, supongamos que está leyendo un correo electrónico mientras la IA ya ha evaluado el contenido en pantalla en segundo plano. Mientras lees el mensaje en la aplicación Correo, puedes pedirle a la IA con un comando de voz que haga una entrada de calendario y la guarde en tu agenda.

No necesariamente tiene que ser una tarea súper compleja de varios pasos que involucre a más de una aplicación. Supongamos que estás mirando la página de conocimiento de la Búsqueda de Google de un restaurante y, simplemente diciendo «llamar al lugar», la IA lee el número de teléfono en pantalla, lo copia en el marcador e inicia una llamada.

O bien, digamos que estás leyendo un tweet sobre una película que se estrena el 6 de abril y le dices a la IA que cree un acceso directo dirigido a la aplicación Fandango. O bien, una publicación de una playa en Vietnam inspira tu próximo viaje en solitario, y un simple «resérvame un boleto para Con Dai» te lleva a la aplicación de Skyscanner con todas tus entradas ya completadas.

Oye Siri
Nadeem Sarwar / DT

Pero todo esto es más fácil decirlo que hacerlo y depende de múltiples variables, algunas de las cuales podrían estar fuera del control de Apple. Por ejemplo, las páginas web plagadas de ventanas emergentes y anuncios intrusivos harían casi imposible que la interfaz de usuario de Ferret hiciera su trabajo. Pero en el lado positivo, los desarrolladores de iOS se adhieren estrictamente a las pautas de diseño establecidas por Apple, por lo que es probable que la interfaz de usuario de Ferret haga su magia de manera más eficiente en las aplicaciones de iPhone.

Aun así, sería una victoria impresionante. Y dado que estamos hablando de una implementación en el dispositivo estrechamente horneada a nivel del sistema operativo, es poco probable que Apple cobre por la comodidad, a diferencia de los productos de IA generativa convencionales como ChatGPT Plus o Microsoft Copilot Pro. ¿iOS 18 finalmente nos daría un vistazo a un iOS reimaginado sobrealimentado con inteligencia artificial? Tendremos que esperar hasta la Conferencia Mundial de Desarrolladores de Apple 2024 para averiguarlo.

Diego Bastarrica
Diego Bastarrica es periodista y docente de la Universidad Diego Portales de Chile. Especialista en redes sociales…
Apple advierte a los usuarios de iPhone de un peligroso ataque de spyware
apple advierte iphone peligroso ataque

Andy Boxall / DT
Apple está advirtiendo a los usuarios de iPhone en 98 países que estén atentos a posibles ataques de software espía mercenarios. Según TechCrunch, esta es la segunda advertencia de este tipo de la compañía en 2024.

La gente de los países afectados está recibiendo el siguiente mensaje de Apple: "Apple detectó que está siendo blanco de un ataque de software espía mercenario que está tratando de comprometer de forma remota el iPhone asociado con su ID de Apple -xxx-".

Leer más
El iPhone 16 Pro recibiría una actualización de carga muy esperada
iphone 16 pro actualizacion carga bateria

Joe Maring /DT
Las velocidades de carga de los iPhones de Apple no han mejorado durante un período considerable. Sin embargo, esto puede cambiar con los próximos iPhone 16 Pro y iPhone 16 Pro Max. Según ITHome, ambos modelos podrían admitir carga por cable de 40 vatios y carga MagSafe de 20W.

Curiosamente, la noticia sugiere que solo los modelos iPhone 16 Pro y iPhone 16 Pro Max recibirán las mejoras de carga, no los esperados modelos iPhone 16 y iPhone 16 Plus. Si bien 40W todavía no coincidirá con teléfonos como el OnePlus 12 con su carga de 80W, será una actualización significativa en comparación con los iPhones anteriores.

Leer más
Olvídate de iOS 18. Apple ya ha comenzado a trabajar en su próxima gran actualización de iPhone
apple comienza trabajar ios 19

Apple
Cuando se trata de tecnología, todo está siempre en movimiento y evolucionando. Un ejemplo de esto es la actualización de software iOS 19 de Apple. Sí, iOS 19. Incluso antes de que iOS 18 se lance al público, parece que Apple ya está trabajando duro en la próxima versión de iOS, que ni siquiera se anunciará hasta el próximo mes de junio.

Según Mark Gurman de Bloomberg, los desarrolladores de Apple están comenzando a trabajar activamente en los sistemas operativos de 2025 para sus productos más importantes. Cada uno ya tiene un nombre interno. Por ejemplo, la próxima versión de iOS se llama "Luck", mientras que macOS 16 se describe como "Cheer". "Nepali" es el nombre de watchOS 12, mientras que "Discovery" se refiere a visionOS 3. Sin duda, iPadOS 19 también está en proceso.

Leer más