Skip to main content

La actualización de ChatGPT finalmente rompe la barrera del texto

OpenAI está implementando nuevas funcionalidades para ChatGPT que permitirán que las indicaciones se ejecuten con imágenes y directivas de voz además de texto.

La marca AI anunció el lunes que pondrá estas nuevas características a disposición de los usuarios de ChatGPT Plus y Enterprise durante las próximas dos semanas. La función de voz está disponible en iOS y Android en una capacidad opcional, mientras que la función de imágenes está disponible en todas las plataformas ChatGPT. OpenAI señala que planea expandir la disponibilidad de las imágenes y las funciones de voz más allá de los usuarios pagos después del lanzamiento escalonado.

Indicador de imagen OpenAI.
Twitter/X

El chat de voz funciona como una conversación auditiva entre el usuario y ChatGPT. Presionas el botón y dices tu pregunta. Después de procesar la información, el chatbot le da una respuesta en el habla auditiva en lugar de en el texto. El proceso es similar al uso de asistentes virtuales como Alexa o Google Assistant y podría ser el preámbulo de una renovación completa de los asistentes virtuales en su conjunto. El anuncio de OpenAI se produce pocos días después de que Amazon revelara una característica similar que llegará a Alexa.

Recommended Videos

Para implementar la comunicación de voz y audio con ChatGPT, OpenAI utiliza un nuevo modelo de texto a voz que puede generar «audio similar al humano a partir de solo texto y unos segundos de habla de muestra». Además, su modelo Whisper puede «transcribir sus palabras habladas en texto».

OpenAI dice que es consciente de los problemas que podrían surgir debido al poder detrás de esta característica, incluido «el potencial de que los actores maliciosos se hagan pasar por figuras públicas o cometan fraude».

Esta es una de las principales razones por las que la compañía planea limitar el uso de sus nuevas características a «casos de uso y asociaciones específicos». Incluso cuando las características estén más ampliamente disponibles, serán accesibles principalmente para usuarios más privilegiados, como los desarrolladores.

ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms). https://t.co/uNZjgbR5Bm pic.twitter.com/paG0hMshXb

— OpenAI (@OpenAI) September 25, 2023

La función de imagen le permite capturar una imagen e ingresarla en ChatGPT con su pregunta o aviso. Puede usar la herramienta de dibujo con la aplicación para ayudar a aclarar su respuesta y tener una conversación de ida y vuelta con el chatbot hasta que se resuelva su problema. Esto es similar a la nueva función Copilot de Microsoft en Windows, que se basa en el modelo de OpenAI.

OpenAI también ha reconocido los desafíos de ChatGPT, como su problema de alucinación en curso. Cuando se alineó con la función de imagen, la marca decidió limitar ciertas funcionalidades, como la «capacidad del chatbot para analizar y hacer declaraciones directas sobre las personas».

ChatGPT se introdujo por primera vez como una herramienta de texto a voz a fines del año pasado; sin embargo, OpenAI ha expandido rápidamente su destreza. El chatbot original basado en el modelo de lenguaje GPT-3 se ha actualizado a GPT-3.5 y ahora GPT-4, que es el modelo que recibe la nueva característica.

Cuando GPT-4 se lanzó por primera vez en marzo, OpenAI anunció varias colaboraciones empresariales, como Duolingo, que utilizó el modelo de IA para mejorar la precisión de las lecciones basadas en la escucha y el habla en la aplicación de aprendizaje de idiomas. OpenAI ha colaborado con Spotify para traducir podcasts a otros idiomas mientras preserva el sonido de la voz del podcaster. La compañía también habló de su trabajo con la aplicación móvil, Be My Eyes, que trabaja para ayudar a las personas ciegas y con baja visión. Muchas de estas aplicaciones y servicios estaban disponibles antes de la actualización de imágenes y voz.

Diego Bastarrica
Diego Bastarrica es periodista y docente de la Universidad Diego Portales de Chile. Especialista en redes sociales…
5 consideraciones de por qué la inteligencia artificial podría estar sobrevalorada
ChatGPT: qué es y cómo usar el chatbot del que todo el mundo habla.

¿La inteligencia artificial está sobrevalorada? ¿Qué tal si inadvertidamente frente a nosotros se ha gestado la próxima gran crisis financiera? Bueno, varios se han hecho la pregunta. Hace poco me encontré con esta publicación de Greg Rosalsky, anfitrión del podcast Planet Money para NPR. Recomiendo totalmente que lo escuches si la pregunta que abre este artículo te parece relevante. A mí, un reportero de tecnología que prácticamente escucha, lee o quizá prueba alguna nueva aplicación supuestamente basada en inteligencia artificial, me da la impresión de que efectivamente lo está, y ruego que lo segundo no ocurra jamás. Como sea, después de escuchar su podcast y leer este artículo, quiero resumir los aspectos que me parecen más llamativos sobre por qué, efectivamente, la inteligencia artificial está sobrevalorada.
En realidad no es inteligente

¿Todos hablan de ChatGPT, cierto? Aunque actúa como un sistema que puede responder prácticamente la pregunta que le hagas, este y otros modelos de lenguaje actúan como una especie de agregador de lo mejor que pueden hallar en internet y lanzarlo a un recuadro de texto de forma más o menos coherente y legible. Si preguntas cuestiones básicas como qué es la religión o le pides escribir un artículo sobre todo lo que se sabe del iPhone 15, lo más probable es que los resultados parecerán excelsos. Pero si le preguntas alguna cuestión moralmente compleja y que involucre cierta verificación de datos lo más probable es que termine lanzando alguna barbaridad.
Su “fuente” de inteligencia se está agotando o ya le está cobrando
Fuera del medio tecnológico y económico el caso no ha tenido gran resonancia, pero varias compañías de medios de comunicación, por ejemplo The New York Times, comenzaron a demandar a empresas como OpenAI por utilizar sus artículos como “alimentos” para su modelo de lenguaje. 

Leer más
OpenAI ahora advierte del riesgo «medio» de GPT-4o
GPT-4o

Han pasado casi dos meses desde que OpenAI lanzó su revolucionario nuevo sistema GPT-4o, que incursionaba en la interacción conversacional y por audio con el usuario.

Bueno, recién después de este tiempo, la gente de la compañía lanzó resultados de una evaluación de seguridad que hicieron al nuevo protocolo.

Leer más
¿ChatGPT tendrá una marca de agua para pillar a los tramposos?
ChatGPT: qué es y cómo usar el chatbot del que todo el mundo habla.

Muchos profesores e incluso empleadores se están quejando que varios trabajos están siendo realizados casi cien por ciento con el uso de ChatGPT, y la tarea se dificulta para ellos de saber si lo que están leyendo es original o plagiado.

Y para eso, según The Wall Street Journal, OpenAI está debatiendo si realmente debe lanzar una nueva herramienta: una marca de agua para detectar tramposos.
En una declaración proporcionada a TechCrunch, un portavoz de OpenAI confirmó que la compañía está investigando el método de marca de agua de texto, pero dijo que está adoptando un "enfoque deliberado" debido a "las complejidades involucradas y su probable impacto en el ecosistema más amplio más allá de OpenAI".
"El método de marca de agua de texto que estamos desarrollando es técnicamente prometedor, pero tiene riesgos importantes que estamos sopesando mientras investigamos alternativas, incluida la susceptibilidad a la elusión por parte de malos actores y el potencial de afectar desproporcionadamente a grupos como los que no hablan inglés", dijo el portavoz.
Tras la publicación de la historia del Journal, OpenAI también actualizó una entrada de blog de mayo sobre su investigación sobre la detección de contenidos generados por IA. La actualización dice que la marca de agua de texto ha demostrado ser "altamente precisa e incluso efectiva contra la manipulación localizada, como la paráfrasis", pero ha demostrado ser "menos robusta contra la manipulación globalizada; como usar sistemas de traducción, reformular con otro modelo generativo o pedirle al modelo que inserte un carácter especial entre cada palabra y luego eliminar ese carácter".
Como resultado, OpenAI escribe que este método es "trivial para la elusión por parte de malos actores". La actualización de OpenAI también se hace eco del punto del portavoz sobre los no angloparlantes, escribiendo que la marca de agua de texto podría "estigmatizar el uso de la IA como una herramienta de escritura útil para los hablantes no nativos de inglés".

Leer más