Skip to main content

DT en Español podría recibir una comisión si compras un producto desde el sitio

Microsoft mejora en gran manera el reconocimiento de voz

No eres el único que se agobia porque los robots de servicio al cliente no entienden lo que dices. Por eso, Microsoft está trabajando en mejorar el oído de estas máquinas.

Los investigadores de este gigante de la tecnología, lograron disminuir la tasa de error de reconocimiento de voz a solo 6.3%, de acuerdo a una investigación publicada la semana pasada.

Relacionado: ¡Cuida tus palabras! Algoritmo podría ahora detectar el sarcasmo en Redes Sociales

La empresa espera que este hito ayude a refinar y personalizar su asistente Cortana y el traductor simultáneo de Skype.

De acuerdo a Xuedong Huang, el Director Científico de reconocimiento de voz de Microsoft, esta tasa de errores es la más baja de la industria.

IBM había mejorado su software hasta obtener solamente un 6.6% de tasa de errores, pero claramente Microsoft lo ha sobrepasado. El año pasado, la tasa de error de sicha empresa era del 8% y hace dos décadas, era de más del 43% según indica un blog de Microsoft.

Durante el desarrollo de la inteligencia artificial, los investigadores han buscado equiparar las habilidades de las máquinas con las de los seres humanos como lo son el habla, la visión y el oído.

A pesar de que el logro de Microsoft está solamente 0.3% por debajo del de IBM, cada mejora es vista como un gran paso para lograr llegar a la misma capacidad del ser humano.

La tasa de error de los seres humanos con respecto al reconocimiento del habla es de alrededor del 4%, según indica IBM.

“Este hito beneficia un gran rango de tecnologías desarrolladas por la comunidad de científicos dedicados a la inteligencia artificial de diferentes organizaciones durante los últimos 20 años”, afirma Huang.

Algunas de estas tecnologías incluyen sistemas inspirados en la biología como lo son las redes neurales, una técnica de entrenamiento conocida como aprendizaje profundo, y la adopción de unidades de procesamiento gráfico (GPU) para procesar algortimos.

Durante los últimos dos años, las redes neurales y el aprendizaje profundo han permitido a los investigadores en inteligencia artificial desarollar y entrenar sistemas en reconocimiento de voz avanzado, reconocimiento de imágenes y procesamente natural del lenguaje.

El año pasado, Microsoft creó un sistema de reconocimiento de imágenes que resultó ser mejor que el de los seres humanos.

Relacionado: Escribir por voz es más rápido que teclear

A pesar de que fue diseñado inicialmente para las gráficas de las computadoras, los GPU son ahora utilizados para procesar algoritmos complejos. Cortana puede proccesar 10 veces más información utilizando GPU que a través de los métodos utilizados anteriormente, de acuerdo a Microsoft.

Con estos avances, es muy seguro que repetirle una frase a un robot por teléfono será un asunto del pasado.

Recomendaciones del editor

Juliana Jara
Ex escritor de Digital Trends en Español
Juliana Jara es politóloga egresada de la Universidad ICESI de Cali, Colombia y decidió poco después estudiar una…
Microsoft Designer: diseños con IA en unos cuantos clics
microsoft designer que es como usar windows aigswjmvoeo unsplash

Si no te consideras nada creativo para realizar materiales gráficos, Microsoft Designer podría hacer el trabajo pesado por ti, al proponerte desde un póster hasta una publicación que podrías difundir por Instagram. Probamos esta alternativa a Canva y te contamos sus puntos destacados.

La herramienta fue presentada por la compañía en octubre de 2022 junto con nuevos dispositivos Surface y la plataforma Image Creator.

Leer más
Los ataques ultrasónicos están creando caos en los asistentes de voz
ataques ultrasonicos caos asistentes de voz thomas kolnowski ljg19qhtzzq unsplash

Un nuevo tipo de ataque está en ciernes en la industria tecnológica, se trata de NUIT, o ataque ultrasónicos, troyanos inaudibles de ultrasonido cercano, que pueden explotar vulnerabilidades en dispositivos IoT equipados con micrófono y asistentes de voz como Apple Siri, Google Assistant y Microsoft Cortana. Los ataques no pueden ser escuchados por los humanos, pero pueden convertir efectivamente los dispositivos inteligentes en dispositivos potencialmente maliciosos.

Sin embargo, por ahora los virus han sido creados por investigadores de la Universidad de Texas, San Antonio, y la Universidad de Colorado y se mostrarán en el próximo 32º Simposio de Seguridad USENIX, del 9 al 11 de agosto, en Anaheim, California. El equipo de investigación proporcionó una demostración preliminar a The Register, mostrando dos ataques separados: NUIT-1 y NUIT-2.

Leer más
Microsoft incluirá la IA de ChatGPT en Bing y en su navegador Edge
Microsoft incluirá la IA de ChatGPT en Bing y su navegador Edge.

Microsoft ha decidido renovar su motor de búsqueda Bing y su navegador web Edge con inteligencia artificial, en un claro intento de retomar el liderazgo que ha estado en manos de otras tecnológicas.

Esta vez se está apostando al futuro a la inteligencia artificial con una ficha de miles de millones de dólares y desafiando directamente a Google, que durante lustros la ha superado en tecnología de búsqueda y navegación.

Leer más