Skip to main content

Con un divertido video de «La Bamba» en YouTube, muestran el poderío de Google Translate

Google Translate,  la aplicación móvil que  traduce voz, texto e incluso imágenes en tiempo real a diferentes idiomas,  fue puesta a pruebas en un video compartido a través del portal YouTube utilizando la emblemática canción “La Bamba”.

En el video aparecen los empleados de Google mostrando carteles con la  letra del inmortal tema creado por Ritchie Valens, y donde  cada palabra es traducida a  diferentes idiomas en tiempo real  con la ayuda  del lente de la cámara.

Recommended Videos

El  resultado en  un divertido video musical en el cual podemos ver cómo el mundo puede volverse un poco más accesible a los los viajeros y gracias a herramientas que derriban las barreras idiomáticas.

El blog oficial de Google menciona que  uno de los objetivos del video de YouTube es anunciar la incorporación  de las nuevas lenguas como el    búlgaro, catalán, croata, checo, danés, holandés, filipino, finlandés, húngaro, indonesio, lituano, noruego, polaco, rumano, eslovaco, sueco, turco y ucraniano.

Google sigue mejorando su aplicación Google Translate, que ahora traduce un total de 27 idiomas. Lo más asombroso es que la traducción apenas modifica la tipografía y el estilo de las letras.

La  asombrosa tecnología no necesita de conexión a Internet, algo que se consigue gracias a las redes neuronales convolucionales (artificiales), tal y como explican en su blog:

“Las redes neuronales han recibido mucha atención en los últimos años porque han marcado todo  tipo de récords en el reconocimiento de imágenes. Hace cinco años, si le dabas a  una computadora una imagen de un gato o un perro, tenía problemas para diferenciar cuál era cuál. Gracias al perfeccionamiento de las intricadas redes neuronales artificiales,  ahora no sólo pueden interpretar  la diferencia entre los gatos y los perros, incluso pueden reconocer diferentes razas de perros.

Así es como funcionan:

Tomemos por ejemplo que deseamos traducir un cartel callejero, en primer lugar, cuando entra la  imagen desde la cámara, la aplicación  tiene que encontrar las letras de la imagen. Tiene que eliminar los objetos del fondo como árboles o coches, y recoger las palabras que queremos traducir. Analiza las  manchas de pixeles que tienen colores similares entre sí  y las que también están cerca de otras manchas similares de píxeles. Esas son, posiblemente, las letras,  y si  hacen una línea continua, las interpreta como el texto que debemos leer.

En segundo lugar, la aplicación  tiene que reconocer lo que cada letra es en realidad. Aquí es donde entra en juego el aprendizaje profundo utilizando una red neuronal convolucional para entrenar la aplicación a reconocer las letras y  diferenciarlas de las que nos son  letras.

Curiosamente, si entrenamos el programa a  reconocer sólo las letras más  «limpias», nos arriesgamos a que no entienda lo que los  carteles  reales anuncian.

Los carteles en el mundo real se ven  empañados por reflexiones, suciedad, manchas, y todo tipo de rarezas. Así que hemos construido nuestro propio generador de  carteles  para crear todo tipo «suciedad»  falsa.

Te preguntarás ¿Por qué no entrenamos con  fotos de la vida real? Bueno, es difícil encontrar suficientes ejemplos en todas las lenguas que necesitamos, y es más difícil mantener el control preciso sobre los ejemplos cuando nuestro  objetivo es crear una red neuronal realmente eficiente y compacta. Así que es más eficaz simular la suciedad.

El tercer paso es tomar las palabras reconocidas, y mirar en un diccionario para obtener traducciones. Puesto que cada paso anterior podría haber fallado de alguna manera, la búsqueda del diccionario necesita ser aproximada. De esa manera, si leemos una ‘S’ como un ‘5’, necesitamos que sea capaz de encontrar la palabra ‘5uper’.

Finalmente, mostramos  la traducción  en el mismo estilo y color que las palabras originales. Podemos hacer esto porque ya hemos encontrado y leído  las letras de la imagen, por lo que sabemos exactamente dónde van colocadas.

La nueva tecnología puede parecer muy abstracta, y no siempre es obvio lo que las aplicaciones con redes neuronales convolucionales podrían llegar a hacer. Nosotros tampoco conocemos el límite, por el momento creemos que romper las barreras del idioma es de gran utilidad.”

Miguel Rajmil
Ex escritor de Digital Trends en Español
MIGUEL RAJMIL was born in Argentina and has been living in New York City since 1980. He is a professional photographer who…
Generar un video con IA será el nuevo rey para Gemini Advanced
Video generado por Veo2

Este miércoles 16 de abril Google anunciará que los usuarios de Gemini Advanced podrán generar y compartir videos utilizando Veo 2.

Google Labs también está haciendo que Veo 2 esté disponible a través de Whisk, un experimento de IA generativa que te permite crear nuevas imágenes a partir de texto e imágenes, y ahora puedes animarlas.

Leer más
Un rival de ChatGPT pronto podría controlar tu escritorio con la voz
Persona hablando desde su computadora

La startup de inteligencia artificial Anthropic comparte el protagonismo entre los principales nombres de Silicon Valley por dos razones principales. En primer lugar, la empresa fue fundada por antiguos alumnos de OpenAI que se marcharon tras desarrollar diferencias ideológicas con Sam Altman. En segundo lugar, Anthropic afirma adoptar un enfoque más responsable con su chatbot de IA -y sus grandes modelos de lenguaje homónimos- Claude, intentando eliminar las respuestas dañinas o poco éticas.
Mike Krieger, director de productos de Anthropic, y cofundador de Instagram, habló con el Financial Times sobre los planes de la compañía para mejorar el "trabajo del conocimiento", ayudándolos a recuperar algo del tiempo dedicado a "Excel o Google Docs".
Una forma de lograrlo sería a través de sistemas agenticos donde la IA de Anthropic podrá controlar todo su escritorio desde un conjunto de comandos de lenguaje natural. En teoría, el concepto es similar al modo Operador de ChatGPT que navega por la web por ti en función de tus comandos.
Al mismo tiempo, Microsoft está apostando por los comandos de voz para controlar sus portátiles con Windows con la ayuda de su interfaz de chat Copilot+.
Chat de voz para controlar tu PC
Krieger prevé que una forma de implementar Claude para controlar su escritorio será con voz, ya que sería "una interfaz de usuario más natural". El año pasado, Anthropic hizo una demostración de su agente de IA que puede controlar computadoras usando comandos escritos.

Con el tiempo, se puede esperar que el control por voz sea una extensión de esta funcionalidad existente. A pesar de que no hay un cronograma claro sobre cuándo, o confirmación si, controlar su PC con la función de voz se convierte en una realidad, Anthropic ya tiene un modo de voz en proceso.
El ejecutivo dijo que la compañía ya está creando un prototipo de control por voz para Claude. Anthropic está apostando por las asociaciones empresariales, en lugar de hacer que sus productos estén disponibles inmediatamente para los consumidores, para obtener una ventaja sobre rivales como OpenAI, Meta y Google.
"Espero que Claude llegue a tantas personas como sea posible, pero el camino crítico no es a través de la adopción masiva por parte de los consumidores en este momento", dijo Krieger.
Sin embargo, si la funcionalidad de voz estuviera disponible para los usuarios de Claude, uno de los lugares más naturales sería la aplicación móvil lanzada en agosto del año pasado. Por ahora, el modo de voz de Claude ya existe en forma de Alexa+ revisado de Amazon, que funciona con los grandes modelos de lenguaje de Claude.
Esto fue probablemente el resultado de la inversión de $ 4 mil millones de Amazon en la startup. La compañía también puede estar buscando otros socios para lanzar sus productos basados en voz, pero aún no ha revelado ninguna otra alianza que no sea con Amazon.
Mientras tanto, sus rivales OpenAI y Google ya tienen una funcionalidad de voz competente a través de sus respectivos modos de voz en ChatGPT y Gemini.

Leer más
¿Qué puedes hacer con el botón de Gemini que Google añadió a tu Gmail?
Google Gemini

Google implementó un botón de Gemini en Gmail, aunque por ahora solo está disponible en la versión para computadoras de Gmail, pues en celulares Android y iPhone se accede al chatbot a través de una app o dejando presionado el botón de encendido en algunos teléfonos.

Decidí probar el botón de Gemini en mi Gmail para ver qué tanto puedo hacer. Esto fue lo que encontré.
¿Qué puedes hacer con el botón de Gemini en Gmail?
Primero, el botón se ubica en la esquina superior derecha, a un lado de la cuadrícula que te muestra todas las apps de Google. Por cierto, noté que el botón también está disponible en en mi Docs, el procesador de texto que utilizo para escribir mis textos para Digital Trends en Español. Busqué el mismo botón en Sheets, donde realizo mi planificación de gastos mensual, pero no hallé nada. Desconozco si Google está habilitando Gemini paulatinamente en ciertas apps o si la función está ligada al uso de las mismas.

Leer más