Skip to main content

Con un divertido video de «La Bamba» en YouTube, muestran el poderío de Google Translate

con un divertido video de la bamba en youtube muestran el poderio google translate screen shot 2015 07 31 at 7 40 51 am
Imagen utilizada con permiso del titular de los derechos de autor
Google Translate,  la aplicación móvil que  traduce voz, texto e incluso imágenes en tiempo real a diferentes idiomas,  fue puesta a pruebas en un video compartido a través del portal YouTube utilizando la emblemática canción “La Bamba”.

En el video aparecen los empleados de Google mostrando carteles con la  letra del inmortal tema creado por Ritchie Valens, y donde  cada palabra es traducida a  diferentes idiomas en tiempo real  con la ayuda  del lente de la cámara.

Recommended Videos

El  resultado en  un divertido video musical en el cual podemos ver cómo el mundo puede volverse un poco más accesible a los los viajeros y gracias a herramientas que derriban las barreras idiomáticas.

El blog oficial de Google menciona que  uno de los objetivos del video de YouTube es anunciar la incorporación  de las nuevas lenguas como el    búlgaro, catalán, croata, checo, danés, holandés, filipino, finlandés, húngaro, indonesio, lituano, noruego, polaco, rumano, eslovaco, sueco, turco y ucraniano.

Google sigue mejorando su aplicación Google Translate, que ahora traduce un total de 27 idiomas. Lo más asombroso es que la traducción apenas modifica la tipografía y el estilo de las letras.

La  asombrosa tecnología no necesita de conexión a Internet, algo que se consigue gracias a las redes neuronales convolucionales (artificiales), tal y como explican en su blog:

“Las redes neuronales han recibido mucha atención en los últimos años porque han marcado todo  tipo de récords en el reconocimiento de imágenes. Hace cinco años, si le dabas a  una computadora una imagen de un gato o un perro, tenía problemas para diferenciar cuál era cuál. Gracias al perfeccionamiento de las intricadas redes neuronales artificiales,  ahora no sólo pueden interpretar  la diferencia entre los gatos y los perros, incluso pueden reconocer diferentes razas de perros.

Así es como funcionan:

Tomemos por ejemplo que deseamos traducir un cartel callejero, en primer lugar, cuando entra la  imagen desde la cámara, la aplicación  tiene que encontrar las letras de la imagen. Tiene que eliminar los objetos del fondo como árboles o coches, y recoger las palabras que queremos traducir. Analiza las  manchas de pixeles que tienen colores similares entre sí  y las que también están cerca de otras manchas similares de píxeles. Esas son, posiblemente, las letras,  y si  hacen una línea continua, las interpreta como el texto que debemos leer.

En segundo lugar, la aplicación  tiene que reconocer lo que cada letra es en realidad. Aquí es donde entra en juego el aprendizaje profundo utilizando una red neuronal convolucional para entrenar la aplicación a reconocer las letras y  diferenciarlas de las que nos son  letras.

Curiosamente, si entrenamos el programa a  reconocer sólo las letras más  «limpias», nos arriesgamos a que no entienda lo que los  carteles  reales anuncian.

Los carteles en el mundo real se ven  empañados por reflexiones, suciedad, manchas, y todo tipo de rarezas. Así que hemos construido nuestro propio generador de  carteles  para crear todo tipo «suciedad»  falsa.

Te preguntarás ¿Por qué no entrenamos con  fotos de la vida real? Bueno, es difícil encontrar suficientes ejemplos en todas las lenguas que necesitamos, y es más difícil mantener el control preciso sobre los ejemplos cuando nuestro  objetivo es crear una red neuronal realmente eficiente y compacta. Así que es más eficaz simular la suciedad.

El tercer paso es tomar las palabras reconocidas, y mirar en un diccionario para obtener traducciones. Puesto que cada paso anterior podría haber fallado de alguna manera, la búsqueda del diccionario necesita ser aproximada. De esa manera, si leemos una ‘S’ como un ‘5’, necesitamos que sea capaz de encontrar la palabra ‘5uper’.

Finalmente, mostramos  la traducción  en el mismo estilo y color que las palabras originales. Podemos hacer esto porque ya hemos encontrado y leído  las letras de la imagen, por lo que sabemos exactamente dónde van colocadas.

La nueva tecnología puede parecer muy abstracta, y no siempre es obvio lo que las aplicaciones con redes neuronales convolucionales podrían llegar a hacer. Nosotros tampoco conocemos el límite, por el momento creemos que romper las barreras del idioma es de gran utilidad.”

Miguel Rajmil
Ex escritor de Digital Trends en Español
MIGUEL RAJMIL was born in Argentina and has been living in New York City since 1980. He is a professional photographer who…
El mejor chip de AMD hace su debut en la primera computadora de mano
gpd pocket 4 chip amd

¿Es una computadora portátil? ¿Es una tableta? ¿Es una computadora de mano para juegos? No, es sólo el nuevo GPD Pocket 4, y es un poco de los tres, aunque sin hacer mucho hincapié en los "juegos". A diferencia del Steam Deck, el nuevo mini-PC de GPD incluye algunos de los últimos contenidos de hardware y podría sorprender a sus competidores.

Obviamente, el factor de forma de esta cosa es fascinante, pero el chip AMD Zen 5 bajo el capó es igualmente interesante. El Pocket 4 de GPD será el primer dispositivo portátil que utilizará uno de los mejores procesadores de AMD, el Ryzen AI 9 HX 370 (12 núcleos/24 hilos) y la iGPU Radeon 890M. Esto debería darle una ventaja en rendimiento sobre sistemas como el ROG Ally X, especialmente cuando se trata de juegos.

Leer más
Creador de contenido, la IA te hará más fácil el trabajo en Youtube
youtube lluvia de ideas gemini ia creador contenido

Los creadores de contenido de YouTube pronto podrían hacer una lluvia de ideas sobre el tema, el título y las miniaturas de los videos con Gemini AI como parte del experimento "lluvia de ideas con Gemini" que Google está probando actualmente, anunció la compañía a través de su canal Creator Insider.

La función se lanzará primero a un pequeño número de creadores de contenido seleccionados para su crítica, como dijo un portavoz de la compañía a TechCrunch, antes de que la compañía decida si implementarla para todos los usuarios. "Estamos recopilando comentarios en esta etapa para asegurarnos de que estamos desarrollando estas características de manera reflexiva y mejoraremos la función en función de los comentarios", dijo el anfitrión del video.
YouTube (en inglés)
Se podrá acceder a la función a través del menú de análisis de la plataforma, en la pestaña de investigación, y generará sugerencias de ideas para el tema del video, puntos de conversación específicos y progresión, incluso sugerencias de miniaturas utilizando las capacidades de generación de imágenes del modelo de lenguaje grande de Google.

Leer más
Nvidia fue atrapada extrayendo datos de IA de Netflix y YouTube
CEO de Nvidia: Jensen Huang

Nvidia
Según un informe condenatorio de 404 Media, respaldado con chats internos de Slack, correos electrónicos y documentos obtenidos por el medio, Nvidia se ayudó a sí misma a "una experiencia visual de por vida humana digna de datos de entrenamiento por día", admitió Ming-Yu Liu, vicepresidente de investigación de Nvidia y líder del proyecto Cosmos, en un correo electrónico de mayo.

Ex empleados anónimos de Nvidia le dijeron a 404 que se les había pedido que extrajeran contenido de video de Netflix, YouTube y otras fuentes en línea para obtener datos de entrenamiento para usar con los diversos productos de IA de la compañía. Entre ellos se encuentran el generador de mundos Omniverse 3D de Nvidia, los sistemas de coches autónomos y el "humano digital".

Leer más