Skip to main content

¿Qué es Apple Ferret y por qué cambiaría tu iPhone para siempre?

Un iPhone 15 Pro Max tumbado boca arriba, mostrando su pantalla de inicio.
Joe Maring / DT

En los últimos meses, Apple ha publicado un flujo constante de artículos de investigación que detallan su trabajo con la IA generativa. Hasta ahora, Apple ha mantenido la boca cerrada sobre qué es exactamente lo que se está cocinando en sus laboratorios de investigación, mientras que circulan rumores de que Apple está en conversaciones con Google para licenciar su Gemini AI para iPhones.

Pero ha habido un par de adelantos de lo que podemos esperar. En febrero, un documento de investigación de Apple detalló un modelo de código abierto llamado MLLM-Guided Image Editing (MGIE) que es capaz de editar medios utilizando instrucciones de lenguaje natural de los usuarios. Ahora, otro trabajo de investigación sobre la interfaz de usuario de Ferret ha hecho que la comunidad de IA se vuelva loca.

La idea es implementar una IA multimodal (que entienda textos y activos multimedia) para comprender mejor los elementos de una interfaz de usuario móvil. y lo más importante, ofrecer consejos prácticos. Ese es un objetivo crítico a medida que los ingenieros compiten para hacer que la IA sea más útil para un usuario promedio de teléfonos inteligentes que el estado actual de «truco de salón».

En esa dirección, el mayor impulso es desconectar las capacidades de IA generativa de la nube, poner fin a la necesidad de una conexión a Internet e implementar cada tarea en el dispositivo para que sea más rápido y seguro. Tomemos, por ejemplo, Gemini de Google, que se ejecuta localmente en los teléfonos de las series Google Pixel y Samsung Galaxy S24 -y pronto, en los teléfonos OnePlus- y realiza tareas como el resumen y la traducción.

¿Qué es la interfaz de usuario de Ferret de Apple?

Tarjetas de características de la interfaz de usuario de Apple Ferret.
Apple

Con Ferret-UI, Apple aparentemente tiene como objetivo combinar la inteligencia de un modelo de IA multimodal con iOS. En este momento, la atención se centra en tareas más «elementales» como «reconocimiento de iconos, búsqueda de texto y lista de widgets». Sin embargo, no se trata solo de dar sentido a lo que se muestra en la pantalla de un iPhone, sino también de entenderlo lógicamente y responder a las consultas contextuales planteadas por los usuarios a través de sus capacidades de razonamiento.

La forma más fácil de describir las capacidades de la interfaz de usuario de Ferret es como un sistema inteligente de reconocimiento óptico de caracteres (OCR) impulsado por IA. «Después de entrenar con los conjuntos de datos seleccionados, Ferret-UI exhibe una comprensión sobresaliente de las pantallas de la interfaz de usuario y la capacidad de ejecutar instrucciones abiertas», señala el artículo de investigación. El equipo detrás de Ferret UI lo ha ajustado para adaptarse a «cualquier resolución».

Puedes hacer preguntas como «¿Es esta aplicación segura para mi hijo de 12 años?» mientras navegas por la App Store. En tales situaciones, la IA leerá la clasificación por edades de la aplicación y, en consecuencia, proporcionará la respuesta. No se especifica cómo se serviría la respuesta, texto o audio, ya que el documento no menciona a Siri ni a ningún asistente virtual.

Apple no se alejó demasiado del árbol GPT

Información general sobre la interfaz de usuario de Apple Ferret.
Apple

Pero las ideas son mucho más panorámicas e inteligentes. Pregúntale «¿Cómo puedo compartir la aplicación con un amigo?» y la IA resaltará el icono de «compartir» en la pantalla. Por supuesto, le dará una idea general de lo que parpadea en la pantalla, pero al mismo tiempo, analizará lógicamente los activos visuales en la pantalla, como cuadros, botones, imágenes, íconos y más. Esa es una gran victoria de accesibilidad.

Si desea escuchar los términos técnicos, bueno, el documento se refiere a estas capacidades como «conversación de percepción», «inferencia funcional» y «conversación de interacción». Una de las descripciones del trabajo de investigación resume perfectamente las posibilidades de la interfaz de usuario de Ferret, describiéndola como «el primer MLLM diseñado para ejecutar tareas precisas de referencia y conexión a tierra específicas de las pantallas de interfaz de usuario, mientras interpreta hábilmente y actúa sobre instrucciones de lenguaje abiertas».

La interfaz de usuario de Apple Ferret responde a preguntas que tienen en cuenta la pantalla.
Apple

Como resultado, puede describir capturas de pantalla, decir qué hace un activo en particular cuando se toca y discernir si algo en la pantalla es interactivo con entradas táctiles. Ferret UI no es únicamente un proyecto interno. En cambio, para la parte de razonamiento y descripción, se basa en la tecnología GPT-4 de OpenAI, que impulsa ChatGPT, junto con un montón de otros productos conversacionales que existen.

En particular, la versión particular propuesta en el documento es adecuada para múltiples relaciones de aspecto. Además de sus capacidades de análisis y razonamiento en pantalla, el documento de investigación también describe algunas capacidades avanzadas que son bastante sorprendentes de imaginar. Por ejemplo, en la siguiente captura de pantalla, parece capaz no solo de analizar texto escrito a mano, sino que también puede predecir la versión correcta a partir del garabato mal escrito del usuario.

Interfaz de usuario de Apple Ferret que reconoce texto.
Apple

También es capaz de leer con precisión el texto que está cortado en el borde superior o inferior y que, de otro modo, requeriría un desplazamiento vertical. Sin embargo, no es perfecto. En ocasiones, identifica erróneamente un botón como una pestaña y lee erróneamente los recursos que combinan imágenes y texto en un solo bloque.

Cuando se enfrentó al modelo GPT-4V de OpenAI, la interfaz de usuario de Ferret ofreció un nivel impresionante de resultados de interacción conversacional cuando se le hicieron preguntas relacionadas con el contenido en pantalla. Como se puede ver en la imagen de abajo, Ferret UI prefiere respuestas más concisas y directas, mientras que GPT-4V escribe respuestas más detalladas.

La elección es subjetiva, pero si le preguntara a una IA: «¿Cómo compro la zapatilla que aparece en la pantalla?», preferiría que me diera los pasos correctos en la menor cantidad de palabras posible. Pero Ferret UI funcionó admirablemente no solo para mantener las cosas concisas, sino también para ser precisas. En la tarea antes mencionada, Ferret UI obtuvo una puntuación del 91,7% en los resultados de interacción conversacional, mientras que GPT-4V estaba solo ligeramente por delante con un 93,4% de precisión.

Un universo de posibilidades intrigantes

Accesos directos a la interfaz de usuario de Apple Ferret
Apple

La interfaz de usuario marca un impresionante debut de la IA que puede dar sentido a las acciones en pantalla. Ahora, antes de que nos entusiasmemos demasiado con las posibilidades aquí, no estamos seguros de cómo exactamente Apple pretende integrar esto con iOS, o si se materializará en absoluto, por múltiples razones. Bloomberg informó recientemente que Apple era consciente de estar rezagada en la carrera de la IA, y eso es bastante evidente por la falta de productos nativos de IA generativa en el ecosistema de Apple.

En primer lugar, los rumores de que Apple incluso está considerando un acuerdo de licencia de Gemini con Google u OpenAI son una señal de que el propio trabajo de Apple no está al mismo nivel que el de la competencia. En tal escenario, aprovechar el trabajo que Google ya ha hecho con Gemini (que ahora está tratando de reemplazar al Asistente de Google en los teléfonos) sería más inteligente que impulsar un producto de IA a medias en iPhones y iPads.

Apple claramente tiene ideas ambiciosas y continúa trabajando en ellas, como lo demuestran los experimentos detallados en múltiples trabajos de investigación. Sin embargo, incluso si Apple logra cumplir las promesas de la interfaz de usuario de Ferret dentro de iOS, aún equivaldría a una implementación superficial de IA generativa en el dispositivo.

Interfaz de usuario de Apple Ferret leyendo contenido en pantalla.
Apple

Sin embargo, las integraciones funcionales, incluso si se limitan solo a aplicaciones internas preinstaladas, podrían producir resultados sorprendentes. Por ejemplo, supongamos que está leyendo un correo electrónico mientras la IA ya ha evaluado el contenido en pantalla en segundo plano. Mientras lees el mensaje en la aplicación Correo, puedes pedirle a la IA con un comando de voz que haga una entrada de calendario y la guarde en tu agenda.

No necesariamente tiene que ser una tarea súper compleja de varios pasos que involucre a más de una aplicación. Supongamos que estás mirando la página de conocimiento de la Búsqueda de Google de un restaurante y, simplemente diciendo «llamar al lugar», la IA lee el número de teléfono en pantalla, lo copia en el marcador e inicia una llamada.

O bien, digamos que estás leyendo un tweet sobre una película que se estrena el 6 de abril y le dices a la IA que cree un acceso directo dirigido a la aplicación Fandango. O bien, una publicación de una playa en Vietnam inspira tu próximo viaje en solitario, y un simple «resérvame un boleto para Con Dai» te lleva a la aplicación de Skyscanner con todas tus entradas ya completadas.

Oye Siri
Nadeem Sarwar / DT

Pero todo esto es más fácil decirlo que hacerlo y depende de múltiples variables, algunas de las cuales podrían estar fuera del control de Apple. Por ejemplo, las páginas web plagadas de ventanas emergentes y anuncios intrusivos harían casi imposible que la interfaz de usuario de Ferret hiciera su trabajo. Pero en el lado positivo, los desarrolladores de iOS se adhieren estrictamente a las pautas de diseño establecidas por Apple, por lo que es probable que la interfaz de usuario de Ferret haga su magia de manera más eficiente en las aplicaciones de iPhone.

Aun así, sería una victoria impresionante. Y dado que estamos hablando de una implementación en el dispositivo estrechamente horneada a nivel del sistema operativo, es poco probable que Apple cobre por la comodidad, a diferencia de los productos de IA generativa convencionales como ChatGPT Plus o Microsoft Copilot Pro. ¿iOS 18 finalmente nos daría un vistazo a un iOS reimaginado sobrealimentado con inteligencia artificial? Tendremos que esperar hasta la Conferencia Mundial de Desarrolladores de Apple 2024 para averiguarlo.

Recomendaciones del editor

Diego Bastarrica
Diego Bastarrica es periodista y docente de la Universidad Diego Portales de Chile. Especialista en redes sociales…
Por qué deberías comprar el iPhone 15 Pro Max en lugar del iPhone 15 Pro
por que deberias comprar iphone 15 pro max en lugar

Joe Maring / DT
Si quieres el mejor iPhone que el dinero puede comprar en 2024, tienes dos opciones: el iPhone 15 Pro y el iPhone 15 Pro Max. Tienen el mismo chipset, tecnología de pantalla similar, cámaras casi idénticas, etc. Es una batalla muy reñida, salvo por el hecho de que el iPhone 15 Pro es 200 dólares más barato.

Puede ser tentador ahorrar algo de dinero y elegir el iPhone 15 Pro, pero te recomiendo que derroches en el iPhone 15 Pro Max, más grande (y más caro). Déjame explicarte.
Es un iPhone grande que no odiarás usar
Joe Maring /DT
El iPhone 14 Pro Max fue mi iPhone preferido durante una buena parte de 2022 y 2023. Sin embargo, finalmente bajé al iPhone 14 Pro más pequeño. ¿Por qué? El modelo Pro Max era demasiado grande y pesado. Afortunadamente, esto no ha sido un problema con el iPhone 15 Pro Max, y todo tiene que ver con el diseño de titanio de Apple.

Leer más
¿Cuándo lanzará Apple iOS 18? Esto es lo que sabemos
cuando se lanzara apple ios 18 iphone

La Conferencia Mundial de Desarrolladores (WWDC, por sus siglas en inglés) anual de Apple comenzará el lunes 10 de junio. Durante el discurso de apertura de la conferencia, se espera que la compañía revele nuevas actualizaciones de software para sus principales productos, incluido iOS 18 para iPhones.

Se espera que iOS 18 sea una actualización importante del iPhone, probablemente marcando el comienzo de un nuevo diseño y funciones de IA. Si te preguntas cuándo podrás hacerte con la última versión del software, aquí tienes todo lo que necesitas saber sobre la fecha de lanzamiento de iOS 18.
¿Cuándo se lanzará la versión beta de iOS 18?
Joe Maring/DT
Apple lanza constantemente nuevo software para sus productos importantes, incluidos el iPhone, iPad, Mac, Apple Watch, Apple TV y, más recientemente, Vision Pro.

Leer más
Este es nuestro mejor vistazo hasta ahora a los grandes cambios de diseño del iPhone 16
mejor vistazo grandes cambios diseno iphone 16

Christine Romero-Chan / DT
Parece que Apple está preparando otra actualización de diseño para sus teléfonos inteligentes esta temporada. En 2023, el iPhone 15 Pro hizo una desviación estética al ofrecer biseles más delgados y aspecto de titanio junto con un nuevo botón multifunción. Este año, serán el iPhone 16 de entrada y su variante Plus los que aparentemente están alineados para una actualización de diseño.

El comentarista tecnológico Sonny Dickson ha compartido unidades ficticias que, según se informa, representan las cuatro variantes del iPhone 16, lo que parece confirmar lo que las filtraciones anteriores han predicho hasta ahora. En el iPhone 15 y el iPhone 15 Plus, las lentes de la cámara bailan en diagonal sobre una protuberancia cuadrada. Según los informes, Apple está abandonando la disposición actual de la cámara para sus respectivos sucesores en favor de una configuración vertical en forma de píldora.

Leer más