El CEO de Amazon, Andy Jassy, subió al escenario en la conferencia re:Invent de la compañía el martes para mostrar seis nuevos modelos de generación de texto, imagen y video que llama Amazon Nova.
Esta nueva familia de IA generativas multimodales incluye Nova Micro, un modelo de solo texto creado para respuestas de bajo costo y baja latencia; Nova Lite, un modelo multimodal de bajo costo para procesar entradas de imagen, video y texto; y Nova Pro, su modelo multimodal de propósito general que combina «precisión, velocidad y costo para una amplia gama de tareas», según la publicación del anuncio de la compañía. Nova Premier es el «… modelos multimodales para tareas de razonamiento complejas», mientras que Nova Canvas es un motor dedicado de texto a imagen y Nova Reel está diseñado específicamente para generar video.
Los modelos basados en texto se han optimizado en 15 idiomas diferentes. Micro ofrece una ventana de contexto de 128,000 tokens, mientras que tanto Lite como Pro pueden manejar hasta 300,000 tokens (alrededor de 225,000 palabras o 30 minutos de video). La compañía planea expandir las ventanas de contexto de sus modelos más grandes hasta 2 millones de tokens a principios del próximo año.
Canvas permite a los usuarios generar y editar imágenes utilizando indicaciones en lenguaje natural. Los Reels, que competirán con Gen-3 Alpha, Kling y Dall-E 3, pueden generar clips de hasta seis segundos de duración tanto a partir de indicaciones de texto como de imágenes de referencia. El generador de video también ofrece control de movimiento de la cámara, incluidos paneos y zooms.
«Hemos continuado trabajando en nuestros propios modelos de frontera», dijo Jassy a la multitud reunida, «y esos modelos de frontera han hecho una enorme cantidad de progreso en los últimos cuatro o cinco meses. Y nos dimos cuenta de que, si estábamos encontrando valor en ellos, probablemente encontrarías valor en ellos».
Jassy también dice que estos modelos se encuentran entre los menos costosos de operar y los más rápidos de su clase, aunque la compañía aún no ha publicado datos de referencia que respalden esas afirmaciones. «Hemos optimizado estos modelos para que funcionen con sistemas y API propietarios, de modo que se puedan realizar múltiples pasos automáticos orquestados (comportamiento del agente) mucho más fácilmente con estos modelos», dijo. «Así que creo que son muy convincentes».
Los modelos Micro, Lite y Pro (así como Canvas y Reels) están disponibles actualmente para los clientes de AWS. El estreno está previsto para el primer trimestre de 2025.