Skip to main content

OpenAI presenta GPT-4o: su nuevo modelo que conversa contigo

Imagen utilizada con permiso del titular de los derechos de autor

OpenAI está lanzando un nuevo modelo insignia de IA generativa llamado GPT-4o, que se implementará «iterativamente» en todos los productos de la compañía en las próximas semanas.

El CTO de OpenAI, Muri Murati, dijo que GPT-4o proporciona inteligencia de «nivel GPT-4», pero mejora las capacidades de GPT-4 en texto y visión, así como en audio.

«GPT-4o razona a través de la voz, el texto y la visión», dijo Murati en una presentación en las oficinas de OpenAI.

En una demostración en vivo, dos ingenieros de OpenAI pudieron hablar y razonar incluso con un ejercicio matemático con un ChatGPT que les respondía de manera consistente y rápida.

GPT-4o
Digital Trends Español

GPT-4o mejora en gran medida la experiencia de ChatGPT: ChatGPT es el chatbot viral impulsado por IA de OpenAI. ChatGPT ha ofrecido durante mucho tiempo un modo de voz que transcribe texto de ChatGPT utilizando un modelo de texto a voz. GPT-4o potencia esto, permitiendo a los usuarios interactuar con ChatGPT como un asistente.

Una de las demostraciones más poderosas además fue la traducción en directo de una conversación del italiano al inglés.

Acá hay una muestra cortesía de Techcrunch:

OpenAI's new generative AI model GPT-4o | TechCrunch

La definición de OpenAI

«GPT-4o («o» de «omni») es un paso hacia una interacción humano-computadora mucho más natural: acepta como entrada cualquier combinación de texto, audio e imagen y genera cualquier combinación de salidas de texto, audio e imagen. Puede responder a las entradas de audio en tan solo 232 milisegundos, con un promedio de 320 milisegundos, que es similar a Tiempo de respuesta humana en una conversación. Iguala el rendimiento de GPT-4 Turbo en texto en inglés y código, con una mejora significativa en el texto en idiomas distintos del inglés, a la vez que es mucho más rápido y un 50% más barato en la API. GPT-4o es especialmente mejor en la visión y la comprensión del audio en comparación con los modelos existentes».

«Antes de GPT-4o, podías usar el modo de voz para hablar con ChatGPT con latencias de 2,8 segundos (GPT-3,5) y 5,4 segundos (GPT-4) de media. Para lograr esto, el modo de voz es una canalización de tres modelos separados: un modelo simple transcribe audio a texto, GPT-3.5 o GPT-4 toma texto y emite texto, y un tercer modelo simple convierte ese texto nuevamente en audio. Este proceso significa que la principal fuente de inteligencia, GPT-4, pierde mucha información: no puede observar directamente el tono, los múltiples altavoces o los ruidos de fondo, y no puede emitir risas, cantos o expresar emociones.

Con GPT-4o, entrenamos un único modelo nuevo de extremo a extremo a través de texto, visión y audio, lo que significa que todas las entradas y salidas son procesadas por la misma red neuronal. Debido a que GPT-4o es nuestro primer modelo que combina todas estas modalidades, todavía estamos arañando la superficie de la exploración de lo que el modelo puede hacer y sus limitaciones».

Recomendaciones del editor

Diego Bastarrica
Diego Bastarrica es periodista y docente de la Universidad Diego Portales de Chile. Especialista en redes sociales…
Mistral AI: así es la inteligencia artificial que busca desplazar a ChatGPT
El logotipo de Mistral AI.

Es poco probable que en tu día a día no oigas hablar sobre inteligencia artificial y ChatGPT, una plataforma con la que puedes crear textos listos para publicarse en internet o mejorar una página web. Sin embargo, que ChatGPT sea la inteligencia artificial por antonomasia no significa que no existan otras plataformas, y una de ellas es Mistral AI.

Mistral AI es una startup francesa y es la responsable de Mistral Large, un modelo de lenguaje que presume ofrecer mejores resultados que Claude 2, Gemini Pro, de Google y LLaMA, de Meta. Claro, esas son las mediciones ofrecidas por Mistral AI, sin embargo, si eres un entusiasta de los modelos de lenguaje de inteligencia artificial, no pierdes nada con probar algunas de las opciones de código abierto de Mistral AI: Mistral 7B, que acepta prompts en inglés y en código, y Mistral 8x7B, compatible con prompts en inglés, francés, italiano, alemán, español y en código.

Leer más
Así es la dura demanda de Elon Musk contra OpenAI: no beneficia a la humanidad
Elon Musk demanda

Una durísima demanda presentó este jueves 29 de febrero, Elon Musk en un tribunal de San Francisco, ante la empresa de la que fue accionista en su momento, OpenAI.

El dueño de Tesla y X dice que Sam Altman y compañía lo único que buscan son ganancias y que "abandonaron" su misión fundacional de desarrollar tecnología de inteligencia artificial que beneficie a la humanidad.
Musk alega que la asociación de OpenAI con Microsoft ha transformado a la organización "en una subsidiaria de facto de código cerrado" de Microsoft que se centra en maximizar las ganancias.
Según la demanda, tales acciones constituyen una violación del acuerdo fundacional entre Musk, quien cofundó OpenAI en 2015 pero ya no conserva una participación en la compañía.

Leer más
OpenAI lanza nueva suscripción premium grupal para ChatGPT
¿Qué es ChatGPT? Cómo usar el chatbot del que todo el mundo habla.

Este 10 de enero, OpenAI acaba de informar sobre la puesta en marcha de un nuevo modelo de suscripción para grupos, llamado (no podía ser de otra manera) ChatGPTTeam.

El plan proporciona un espacio de trabajo dedicado para equipos de hasta 149 personas que utilizan ChatGPT, así como herramientas de administración para la gestión de equipos.

Leer más