Skip to main content

Con un divertido video de «La Bamba» en YouTube, muestran el poderío de Google Translate

con un divertido video de la bamba en youtube muestran el poderio google translate screen shot 2015 07 31 at 7 40 51 am
Imagen utilizada con permiso del titular de los derechos de autor
Google Translate,  la aplicación móvil que  traduce voz, texto e incluso imágenes en tiempo real a diferentes idiomas,  fue puesta a pruebas en un video compartido a través del portal YouTube utilizando la emblemática canción “La Bamba”.

En el video aparecen los empleados de Google mostrando carteles con la  letra del inmortal tema creado por Ritchie Valens, y donde  cada palabra es traducida a  diferentes idiomas en tiempo real  con la ayuda  del lente de la cámara.

El  resultado en  un divertido video musical en el cual podemos ver cómo el mundo puede volverse un poco más accesible a los los viajeros y gracias a herramientas que derriban las barreras idiomáticas.

El blog oficial de Google menciona que  uno de los objetivos del video de YouTube es anunciar la incorporación  de las nuevas lenguas como el    búlgaro, catalán, croata, checo, danés, holandés, filipino, finlandés, húngaro, indonesio, lituano, noruego, polaco, rumano, eslovaco, sueco, turco y ucraniano.

Google sigue mejorando su aplicación Google Translate, que ahora traduce un total de 27 idiomas. Lo más asombroso es que la traducción apenas modifica la tipografía y el estilo de las letras.

La  asombrosa tecnología no necesita de conexión a Internet, algo que se consigue gracias a las redes neuronales convolucionales (artificiales), tal y como explican en su blog:

“Las redes neuronales han recibido mucha atención en los últimos años porque han marcado todo  tipo de récords en el reconocimiento de imágenes. Hace cinco años, si le dabas a  una computadora una imagen de un gato o un perro, tenía problemas para diferenciar cuál era cuál. Gracias al perfeccionamiento de las intricadas redes neuronales artificiales,  ahora no sólo pueden interpretar  la diferencia entre los gatos y los perros, incluso pueden reconocer diferentes razas de perros.

Así es como funcionan:

Tomemos por ejemplo que deseamos traducir un cartel callejero, en primer lugar, cuando entra la  imagen desde la cámara, la aplicación  tiene que encontrar las letras de la imagen. Tiene que eliminar los objetos del fondo como árboles o coches, y recoger las palabras que queremos traducir. Analiza las  manchas de pixeles que tienen colores similares entre sí  y las que también están cerca de otras manchas similares de píxeles. Esas son, posiblemente, las letras,  y si  hacen una línea continua, las interpreta como el texto que debemos leer.

En segundo lugar, la aplicación  tiene que reconocer lo que cada letra es en realidad. Aquí es donde entra en juego el aprendizaje profundo utilizando una red neuronal convolucional para entrenar la aplicación a reconocer las letras y  diferenciarlas de las que nos son  letras.

Curiosamente, si entrenamos el programa a  reconocer sólo las letras más  «limpias», nos arriesgamos a que no entienda lo que los  carteles  reales anuncian.

Los carteles en el mundo real se ven  empañados por reflexiones, suciedad, manchas, y todo tipo de rarezas. Así que hemos construido nuestro propio generador de  carteles  para crear todo tipo «suciedad»  falsa.

Te preguntarás ¿Por qué no entrenamos con  fotos de la vida real? Bueno, es difícil encontrar suficientes ejemplos en todas las lenguas que necesitamos, y es más difícil mantener el control preciso sobre los ejemplos cuando nuestro  objetivo es crear una red neuronal realmente eficiente y compacta. Así que es más eficaz simular la suciedad.

El tercer paso es tomar las palabras reconocidas, y mirar en un diccionario para obtener traducciones. Puesto que cada paso anterior podría haber fallado de alguna manera, la búsqueda del diccionario necesita ser aproximada. De esa manera, si leemos una ‘S’ como un ‘5’, necesitamos que sea capaz de encontrar la palabra ‘5uper’.

Finalmente, mostramos  la traducción  en el mismo estilo y color que las palabras originales. Podemos hacer esto porque ya hemos encontrado y leído  las letras de la imagen, por lo que sabemos exactamente dónde van colocadas.

La nueva tecnología puede parecer muy abstracta, y no siempre es obvio lo que las aplicaciones con redes neuronales convolucionales podrían llegar a hacer. Nosotros tampoco conocemos el límite, por el momento creemos que romper las barreras del idioma es de gran utilidad.”

Miguel Rajmil
Ex escritor de Digital Trends en Español
MIGUEL RAJMIL was born in Argentina and has been living in New York City since 1980. He is a professional photographer who…
La cámara 3D de Acer transmite directamente en YouTube o en Zoom
camara 3d acer transmite directamente youtube zoom c  mara

Acer ha anunciado su primera cámara 3D, la SpatialLabs Eyes Stereo, justo antes de Computex 2024 la próxima semana. La cámara puede hacer fotos y videos en 3D, que luego se pueden ver dentro de la propia cámara, en un casco de realidad virtual o en una pantalla 3D.

Es posible que se pregunte qué está haciendo una empresa de PC vendiendo una cámara 3D, pero Acer ha estado a la vanguardia de la tecnología 3D durante años, centrándose principalmente en pantallas estereoscópicas en monitores externos y computadoras portátiles. Pero ahora, la compañía tiene una cámara adecuada para la captura de contenido.

Leer más
La traducción de video en tiempo real llega a Microsoft Edge
microsoft edge video tiempo real

Microsoft
Tras los anuncios masivos de Copilot+ de ayer, el conjunto de herramientas de IA de Microsoft sigue creciendo cada vez más. Como parte de su conferencia anual de desarrollo Microsoft Build, Microsoft ha anunciado una actualización de Edge que le otorga el poder de traducir videos a diferentes idiomas en tiempo real.

Microsoft afirma que la próxima función de IA traducirá videos en el navegador a varios idiomas usando subtítulos y/o doblaje en tiempo real. Microsoft no ha dicho si la opción se establecerá de forma predeterminada o dónde puede ir el usuario para activar o desactivar esta función, pero podría estar en algún lugar de Configuración.

Leer más
Google te muestra cómo cambiará Gmail con toda la IA de Gemini

A partir de hoy tras ser anunciado en Google I/O 2024, Gemini estará en el panel lateral de Gmail, Documentos, Drive, Presentaciones y Hojas de cálculo usando Gemini 1.5 Pro. Con una ventana de contexto más larga y un razonamiento más avanzado, Géminis puede responder a una variedad más amplia de preguntas y proporcionar respuestas más perspicaces. Además, es fácil comenzar con resúmenes que aparecerán en el panel lateral, indicaciones sugeridas y más.
Gracias a la ventana de contexto más larga, Gemini puede hacer referencia a conjuntos de datos mucho más grandes.
https://twitter.com/Google/status/1790441491338264973
Cómo cambiará Gemini IA la experiencia en Gmail

Resumir los correos electrónicos: Ponerse al día con los largos hilos de correo electrónico puede llevar mucho tiempo desde cualquier dispositivo, pero es especialmente difícil en pantallas pequeñas. Con esta función, Gemini puede analizar los hilos de correo electrónico y proporcionar una vista resumida directamente en la aplicación Gmail. Simplemente toque el botón de resumen en la parte superior de su hilo de correo electrónico para obtener los aspectos más destacados. Esto estará disponible para los usuarios de Workspace Labs este mes, y para todos los clientes de Gemini for Workspace y los suscriptores de Google One AI Premium el próximo mes.
Respuesta inteligente contextual: durante años, los usuarios de Gmail han ahorrado tiempo con las respuestas sugeridas de Respuesta inteligente, las sugerencias a medida que escribes de Redacción inteligente y los borradores de correo electrónico completos de Ayúdame a escribir. Pronto, Gemini en Gmail ofrecerá respuestas sugeridas aún más detalladas y matizadas basadas en el contexto de su hilo de correo electrónico. Con la respuesta inteligente contextual, puede editar o simplemente enviar tal cual. Estará disponible para los usuarios de Workspace Labs en dispositivos móviles y web a partir de julio.
Preguntas y respuestas de Gmail: Pronto, cuando hagas clic en el nuevo icono de Gemini en la aplicación móvil, Gemini en Gmail ofrecerá opciones útiles, como "resumir este correo electrónico", "enumerar los próximos pasos" o "sugerir una respuesta". Y al igual que en el panel lateral del escritorio, puede utilizar el cuadro de solicitud abierto cuando tenga solicitudes más específicas. Por ejemplo, puedes pedirle a Gemini que "encuentre la oferta del contratista de techos" que está enterrada en algún lugar de tu bandeja de entrada. O tal vez no quieras buscar en tu Drive el documento con detalles sobre tu club de lectura. En su lugar, podrías preguntarle a Géminis: "¿Cuáles son las preguntas de discusión para mi próxima reunión del club de lectura?" Las preguntas y respuestas de Gmail estarán disponibles para los usuarios de Workspace Labs en dispositivos móviles y en la Web a partir de julio.

Leer más