Skip to main content

OpenAI presenta GPT-4o: su nuevo modelo que conversa contigo

Imagen utilizada con permiso del titular de los derechos de autor

OpenAI está lanzando un nuevo modelo insignia de IA generativa llamado GPT-4o, que se implementará «iterativamente» en todos los productos de la compañía en las próximas semanas.

El CTO de OpenAI, Muri Murati, dijo que GPT-4o proporciona inteligencia de «nivel GPT-4», pero mejora las capacidades de GPT-4 en texto y visión, así como en audio.

«GPT-4o razona a través de la voz, el texto y la visión», dijo Murati en una presentación en las oficinas de OpenAI.

En una demostración en vivo, dos ingenieros de OpenAI pudieron hablar y razonar incluso con un ejercicio matemático con un ChatGPT que les respondía de manera consistente y rápida.

GPT-4o
Digital Trends Español

GPT-4o mejora en gran medida la experiencia de ChatGPT: ChatGPT es el chatbot viral impulsado por IA de OpenAI. ChatGPT ha ofrecido durante mucho tiempo un modo de voz que transcribe texto de ChatGPT utilizando un modelo de texto a voz. GPT-4o potencia esto, permitiendo a los usuarios interactuar con ChatGPT como un asistente.

Una de las demostraciones más poderosas además fue la traducción en directo de una conversación del italiano al inglés.

Acá hay una muestra cortesía de Techcrunch:

OpenAI's new generative AI model GPT-4o | TechCrunch

La definición de OpenAI

«GPT-4o («o» de «omni») es un paso hacia una interacción humano-computadora mucho más natural: acepta como entrada cualquier combinación de texto, audio e imagen y genera cualquier combinación de salidas de texto, audio e imagen. Puede responder a las entradas de audio en tan solo 232 milisegundos, con un promedio de 320 milisegundos, que es similar a Tiempo de respuesta humana en una conversación. Iguala el rendimiento de GPT-4 Turbo en texto en inglés y código, con una mejora significativa en el texto en idiomas distintos del inglés, a la vez que es mucho más rápido y un 50% más barato en la API. GPT-4o es especialmente mejor en la visión y la comprensión del audio en comparación con los modelos existentes».

«Antes de GPT-4o, podías usar el modo de voz para hablar con ChatGPT con latencias de 2,8 segundos (GPT-3,5) y 5,4 segundos (GPT-4) de media. Para lograr esto, el modo de voz es una canalización de tres modelos separados: un modelo simple transcribe audio a texto, GPT-3.5 o GPT-4 toma texto y emite texto, y un tercer modelo simple convierte ese texto nuevamente en audio. Este proceso significa que la principal fuente de inteligencia, GPT-4, pierde mucha información: no puede observar directamente el tono, los múltiples altavoces o los ruidos de fondo, y no puede emitir risas, cantos o expresar emociones.

Con GPT-4o, entrenamos un único modelo nuevo de extremo a extremo a través de texto, visión y audio, lo que significa que todas las entradas y salidas son procesadas por la misma red neuronal. Debido a que GPT-4o es nuestro primer modelo que combina todas estas modalidades, todavía estamos arañando la superficie de la exploración de lo que el modelo puede hacer y sus limitaciones».

Recomendaciones del editor

Diego Bastarrica
Diego Bastarrica es periodista y docente de la Universidad Diego Portales de Chile. Especialista en redes sociales…
Google presenta Gemini: su respuesta más poderosa a GPT-4
google gemini

El área de investigación Google DeepMind acaba de lanzar el competidor más poderoso hasta la fecha del popular estándar GPT-4, ya que presentó Google Gemini, su modelo de lenguaje grande más grande y más capaz hasta la fecha. A partir de hoy, el chatbot Bard de la compañía funcionará con una versión de Gemini y estará disponible en inglés en más de 170 países y territorios. Los desarrolladores y clientes empresariales tendrán acceso a Gemini a través de API la próxima semana, y una versión más avanzada estará disponible el próximo año.

¿Google dice que el rendimiento de su modelo más capaz "supera los resultados actuales de última generación en 30 de los 32 puntos de referencia académicos ampliamente utilizados en investigación y desarrollo de LLM". Gemini también obtuvo una puntuación del 90,0% en una prueba conocida como " Comprensión masiva del lenguaje multitarea " o MMLU, que evalúa las capacidades en 57 materias, incluidas matemáticas, física, historia y medicina. Es el primer LLM que se desempeña mejor que los expertos humanos en la prueba, dijo Google.

Leer más
Por qué no puedes registrarte en ChatGPT Plus en este momento
chatgpt generar claves gratuitas windows 95

La repentina salida del CEO Sam Altman del fin de semana de OpenAI no es el único drama que está ocurriendo con ChatGPT. Debido a la gran demanda, las suscripciones pagas para ChatGPT Plus de OpenAI se han detenido durante casi una semana.

La compañía tiene una lista de espera para que los interesados en registrarse en ChatGPT sean notificados cuando el generador de IA de texto a voz esté disponible una vez más.

Leer más
Samsung Gauss: los coreanos presentan su propio ChatGPT
samsung gauss chatgpt

En los días en que OpenAI está en su conferencia anual para contar sus novedades en torno a ChatGPT y todo su sistema de IA, Samsung acaba de anunciar la concreción de su proyecto Samsung Gauss, su propio sistema de IA generativa que puede hacer código, texto e imagen.

Samsung Gauss, desarrollado por la unidad de investigación del gigante tecnológico Samsung Research, consta de tres herramientas: Samsung Gauss Language, Samsung Gauss Code y Samsung Gauss Image.

Leer más