Skip to main content

OpenAI presenta GPT-4o: su nuevo modelo que conversa contigo

Digital Trends Español

OpenAI está lanzando un nuevo modelo insignia de IA generativa llamado GPT-4o, que se implementará «iterativamente» en todos los productos de la compañía en las próximas semanas.

El CTO de OpenAI, Muri Murati, dijo que GPT-4o proporciona inteligencia de «nivel GPT-4», pero mejora las capacidades de GPT-4 en texto y visión, así como en audio.

«GPT-4o razona a través de la voz, el texto y la visión», dijo Murati en una presentación en las oficinas de OpenAI.

En una demostración en vivo, dos ingenieros de OpenAI pudieron hablar y razonar incluso con un ejercicio matemático con un ChatGPT que les respondía de manera consistente y rápida.

GPT-4o
Digital Trends Español

GPT-4o mejora en gran medida la experiencia de ChatGPT: ChatGPT es el chatbot viral impulsado por IA de OpenAI. ChatGPT ha ofrecido durante mucho tiempo un modo de voz que transcribe texto de ChatGPT utilizando un modelo de texto a voz. GPT-4o potencia esto, permitiendo a los usuarios interactuar con ChatGPT como un asistente.

Una de las demostraciones más poderosas además fue la traducción en directo de una conversación del italiano al inglés.

Acá hay una muestra cortesía de Techcrunch:

OpenAI's new generative AI model GPT-4o | TechCrunch

La definición de OpenAI

«GPT-4o («o» de «omni») es un paso hacia una interacción humano-computadora mucho más natural: acepta como entrada cualquier combinación de texto, audio e imagen y genera cualquier combinación de salidas de texto, audio e imagen. Puede responder a las entradas de audio en tan solo 232 milisegundos, con un promedio de 320 milisegundos, que es similar a Tiempo de respuesta humana en una conversación. Iguala el rendimiento de GPT-4 Turbo en texto en inglés y código, con una mejora significativa en el texto en idiomas distintos del inglés, a la vez que es mucho más rápido y un 50% más barato en la API. GPT-4o es especialmente mejor en la visión y la comprensión del audio en comparación con los modelos existentes».

«Antes de GPT-4o, podías usar el modo de voz para hablar con ChatGPT con latencias de 2,8 segundos (GPT-3,5) y 5,4 segundos (GPT-4) de media. Para lograr esto, el modo de voz es una canalización de tres modelos separados: un modelo simple transcribe audio a texto, GPT-3.5 o GPT-4 toma texto y emite texto, y un tercer modelo simple convierte ese texto nuevamente en audio. Este proceso significa que la principal fuente de inteligencia, GPT-4, pierde mucha información: no puede observar directamente el tono, los múltiples altavoces o los ruidos de fondo, y no puede emitir risas, cantos o expresar emociones.

Con GPT-4o, entrenamos un único modelo nuevo de extremo a extremo a través de texto, visión y audio, lo que significa que todas las entradas y salidas son procesadas por la misma red neuronal. Debido a que GPT-4o es nuestro primer modelo que combina todas estas modalidades, todavía estamos arañando la superficie de la exploración de lo que el modelo puede hacer y sus limitaciones».

Diego Bastarrica
Diego Bastarrica es periodista y docente de la Universidad Diego Portales de Chile. Especialista en redes sociales…
OpenAI firma importante acuerdo para potenciar ChatGPT
ChatGPT en un celular

Rolf van Root / Unsplash
OpenAI ha llegado a un importante acuerdo con News Corp para acceder a contenidos para entrenar sus modelos de IA, anunciaron las compañías el miércoles.

Según se informa, el acuerdo de varios años tiene un valor de hasta 250 millones de dólares y le da a OpenAI acceso al contenido de la gran variedad de títulos de News Corp en varios países, incluidos The Wall Street Journal, MarketWatch, The New York Post, The Times, The Sunday Times, The Sun, The Australian, news.com.au, The Daily Telegraph, The Courier Mail y Herald Sun.

Leer más
Google adelanta con un video que Gemini competirá con GPT-4o
google video gemini compite gpt 4o

Acusando el golpe estratégico de GPT-4o, la gente de Google hizo un adelanto de su conferencia magistral Google I/O 2024, mostrando las nuevas potencialidades de Gemini AI con un video.

Y para eso se adelantó unas horas a lo que anunciaría Sam Altman y compañía.

Leer más
El curso gratis que ofrece OpenAI que te podría hacer ganar mucha plata
openai curso gratis inteligencia artificial

"ChatGPT Prompt Engineering for Developers"  es el nombre del curso que acaba de abrir OpenAI y viene a significar 'Prompt engineering / ingeniería de instrucciones de ChatGPT para desarrolladores'. Se trata de un plan de estudios gratis y lo ha hecho uniéndose a DeepLearning.AI, la compañía de Andrew Ng, también cofundador de la plataforma de cursos Coursera y antiguo máximo responsable de Google Brain y del departamento de IA de Baidu.

Este curso de 1,5 horas tiene como objetivo dotar a los desarrolladores de software con las habilidades necesarias para integrar los grandes modelos de lenguajes (LLMs, como GPT-3.5 y GPT-4) en la creación de aplicaciones.

Leer más