En el Mobile World Congress 2024, Qualcomm añade más a su cartera de trucos de IA en el teléfono facilitados por el silicio de la serie Snapdragon para teléfonos Android. El fabricante de chips ya ha mostrado algunas capacidades de IA impresionantes para el buque insignia Snapdragon 8 Gen 3, como la edición de medios activada por voz, la generación de imágenes en el dispositivo mediante Stable Diffusion y un asistente virtual más inteligente construido sobre grandes modelos de lenguaje de empresas como Meta.
Hoy, la compañía está agregando más fuerza a esos superpoderes de IA. La primera es la capacidad de ejecutar un Large Language and Vision Assistant (LLaVa) en un teléfono inteligente. Piense en ello como un chatbot como ChatGPT al que se le han otorgado capacidades de Google Lens. Como tal, la solución de Qualcomm no solo puede aceptar entradas de texto, sino también procesar imágenes.
Por ejemplo, puede insertar una imagen que represente una tabla de embutidos y hacer preguntas basadas en ella. El asistente de IA, basado en un gran modelo multimodal (LMM) que puede procesar más de 7 mil millones de parámetros, le dirá todos los tipos de frutas, quesos, carnes y nueces en el tablero que se muestra en la imagen de entrada que se ve a continuación.
También puede manejar consultas de seguimiento, para que pueda llevar a cabo una conversación fluida de ida y vuelta. Ahora, empresas como ChatGPT también han adquirido capacidades multimodales, lo que significa que la herramienta de OpenAI también puede procesar entradas de imágenes. Sin embargo, hay una diferencia crucial.
Productos como ChatGPT y Copilot todavía están muy atados a una arquitectura basada en la nube, lo que significa que sus datos se manejan en servidores remotos. El impulso de Qualcomm va en la dirección del procesamiento en el dispositivo. Todo sucede en su teléfono, lo que significa que todo el proceso es más rápido y hay poco riesgo de intrusión en la privacidad.
«Este LMM se ejecuta a una tasa de token receptivo en el dispositivo, lo que da como resultado una mayor privacidad, confiabilidad, personalización y costos», dice Qualcomm. Aún no se ha confirmado oficialmente si el asistente virtual basado en LLaVa prometido por Qualcomm llegará como una aplicación independiente o si tendrá una tarifa.
El próximo anuncio de Qualcomm se sumerge en el dominio creativo de la generación y manipulación de imágenes. No hace mucho tiempo, Qualcomm hizo una demostración de la generación de texto a imagen más rápida del mundo en un teléfono utilizando la tecnología Stable Diffusion. Hoy, la compañía está dando un primer vistazo a la generación de imágenes impulsada por LoRA.
LoRA adopta un enfoque diferente para la generación de imágenes que una herramienta de IA generativa normal como Dall.E. LoRA, abreviatura de Low-Rank Adaptation, es una técnica desarrollada por Microsoft. El entrenamiento de un modelo de IA puede tener un costo prohibitivo, una latencia alta y ser particularmente exigente desde una perspectiva de hardware.
Lo que hace LoRA es reducir drásticamente el peso del modelo, un objetivo que se logra centrándose solo en segmentos específicos del modelo y reduciendo el número de parámetros con fines de entrenamiento. Al hacerlo, los requisitos de memoria disminuyen, el proceso se vuelve más rápido y la cantidad de tiempo y esfuerzo que se necesita para adaptar un modelo de texto a imagen también se reduce drásticamente.
Con el tiempo, la técnica de destilación LoRA se ha aplicado al modelo de difusión estable para generar imágenes a partir de indicaciones de texto. Debido a las ganancias en eficiencia y la adaptabilidad más fácil de los modelos basados en LoRA, se considera una ruta hecha a medida para los teléfonos inteligentes. Qualcomm ciertamente cree que sí, e incluso su rival MediaTek ha adoptado la misma solución para trucos de IA generativa en su chip insignia Dimensity 9300.
Qualcomm también está mostrando algunos otros trucos de IA en el MWC 2024, algunos de los cuales ya han aparecido en el Samsung Galaxy S24 Ultra. Entre ellos se encuentra la capacidad de expandir el lienzo de una imagen utilizando el relleno generativo de IA y la generación de video impulsada por IA. Esto último es bastante ambicioso, especialmente después de ver lo que OpenAI ha logrado con Sora. Sería interesante ver cómo Qualcomm se las arregla para portarlo a los teléfonos inteligentes.