Skip to main content
  1. Home
  2. Computación
  3. Noticias
  4. Features

OpenAI presenta GPT-4o: su nuevo modelo que conversa contigo

Add as a preferred source on Google
Digital Trends Español

OpenAI está lanzando un nuevo modelo insignia de IA generativa llamado GPT-4o, que se implementará «iterativamente» en todos los productos de la compañía en las próximas semanas.

El CTO de OpenAI, Muri Murati, dijo que GPT-4o proporciona inteligencia de «nivel GPT-4», pero mejora las capacidades de GPT-4 en texto y visión, así como en audio.

Recommended Videos

«GPT-4o razona a través de la voz, el texto y la visión», dijo Murati en una presentación en las oficinas de OpenAI.

En una demostración en vivo, dos ingenieros de OpenAI pudieron hablar y razonar incluso con un ejercicio matemático con un ChatGPT que les respondía de manera consistente y rápida.

GPT-4o
Digital Trends Español

GPT-4o mejora en gran medida la experiencia de ChatGPT: ChatGPT es el chatbot viral impulsado por IA de OpenAI. ChatGPT ha ofrecido durante mucho tiempo un modo de voz que transcribe texto de ChatGPT utilizando un modelo de texto a voz. GPT-4o potencia esto, permitiendo a los usuarios interactuar con ChatGPT como un asistente.

Una de las demostraciones más poderosas además fue la traducción en directo de una conversación del italiano al inglés.

Acá hay una muestra cortesía de Techcrunch:

OpenAI's new generative AI model GPT-4o | TechCrunch

La definición de OpenAI

«GPT-4o («o» de «omni») es un paso hacia una interacción humano-computadora mucho más natural: acepta como entrada cualquier combinación de texto, audio e imagen y genera cualquier combinación de salidas de texto, audio e imagen. Puede responder a las entradas de audio en tan solo 232 milisegundos, con un promedio de 320 milisegundos, que es similar a Tiempo de respuesta humana en una conversación. Iguala el rendimiento de GPT-4 Turbo en texto en inglés y código, con una mejora significativa en el texto en idiomas distintos del inglés, a la vez que es mucho más rápido y un 50% más barato en la API. GPT-4o es especialmente mejor en la visión y la comprensión del audio en comparación con los modelos existentes».

«Antes de GPT-4o, podías usar el modo de voz para hablar con ChatGPT con latencias de 2,8 segundos (GPT-3,5) y 5,4 segundos (GPT-4) de media. Para lograr esto, el modo de voz es una canalización de tres modelos separados: un modelo simple transcribe audio a texto, GPT-3.5 o GPT-4 toma texto y emite texto, y un tercer modelo simple convierte ese texto nuevamente en audio. Este proceso significa que la principal fuente de inteligencia, GPT-4, pierde mucha información: no puede observar directamente el tono, los múltiples altavoces o los ruidos de fondo, y no puede emitir risas, cantos o expresar emociones.

Con GPT-4o, entrenamos un único modelo nuevo de extremo a extremo a través de texto, visión y audio, lo que significa que todas las entradas y salidas son procesadas por la misma red neuronal. Debido a que GPT-4o es nuestro primer modelo que combina todas estas modalidades, todavía estamos arañando la superficie de la exploración de lo que el modelo puede hacer y sus limitaciones».

Diego Bastarrica
Diego Bastarrica es periodista y docente de la Universidad Diego Portales de Chile. Especialista en redes sociales…
La máquina pensante: así es el libro sobre el CEO de Nvidia
Libro la máquina pensante

En junio de 2024, impulsada por el auge de la inteligencia artificial tras el lanzamiento de ChatGPT, Nvidia se convirtió en la corporación más valiosa del mundo. Tres décadas después de su fundación en un restaurante Denny’s, la compañía pasó de fabricar componentes para videojuegos a liderar el mercado global del hardware para IA. Esta transformación histórica es el eje central de La máquina pensante, el nuevo libro del periodista Stephen Witt.

En esta obra, Witt narra cómo Jensen Huang, cofundador y director general de Nvidia, apostó hace más de una década por una tecnología que entonces parecía marginal: la inteligencia artificial. Una decisión arriesgada que terminó redefiniendo la arquitectura del ordenador moderno y situando a la compañía en el centro de la revolución tecnológica actual.

Read more
El papá de Signal crea Confer: la privacidad en asistentes de IA
Electronics, Mobile Phone, Phone

Moxie Marlinspike, el ingeniero que revolucionó la comunicación privada mediante Signal, anunció oficialmente Confer, un servicio de asistente de inteligencia artificial diseñado específicamente para garantizar privacidad de extremo a extremo en conversaciones con sistemas de IA. El proyecto, disponible en fase de prueba inicial, implementa arquitecturas criptográficas que previenen que operadores de plataforma, piratas informáticos o gobiernos accedan a contenido de chat.

Confer fundamenta su propuesta en una premisa central: interacciones con asistentes de inteligencia artificial deberían ser tan privadas como conversaciones entre personas. Actualmente, plataformas como ChatGPT funcionan como "lagos de datos públicos," donde los usuarios comparten pensamientos incompletos, patrones de razonamiento y puntos de incertidumbre que permanecen registrados indefinidamente. Un decreto judicial en mayo de 2025 requirió a OpenAI preservar registros completos de conversaciones de usuarios, incluyendo chats eliminados.

Read more
Tu próximo mini PC retro puede parecer una PlayStation clásica
Mini PC retro

Acemagic está aprovechando el ambiente retro de mini PC con un nuevo diseño que toma elementos de la Sega Dreamcast y la PlayStation original. Es un pequeño escritorio que parece pertenecer a la misma estantería que tus consolas antiguas, no oculto tras un monitor.

No fue el único homenaje al pasado que se mostró en el CES 2026. Acemagic también trajo un mini PC inspirado en NES, pero el modelo al estilo Dreamcast y PlayStation es el que está vinculado a la última plataforma de AMD.

Read more