Skip to main content
  1. Home
  2. Computación
  3. Tendencias
  4. News

DT en Español podría recibir una comisión si compras un producto desde el sitio

Microsoft mejora en gran manera el reconocimiento de voz

Add as a preferred source on Google

No eres el único que se agobia porque los robots de servicio al cliente no entienden lo que dices. Por eso, Microsoft está trabajando en mejorar el oído de estas máquinas.

Los investigadores de este gigante de la tecnología, lograron disminuir la tasa de error de reconocimiento de voz a solo 6.3%, de acuerdo a una investigación publicada la semana pasada.

Recommended Videos

Relacionado: ¡Cuida tus palabras! Algoritmo podría ahora detectar el sarcasmo en Redes Sociales

La empresa espera que este hito ayude a refinar y personalizar su asistente Cortana y el traductor simultáneo de Skype.

De acuerdo a Xuedong Huang, el Director Científico de reconocimiento de voz de Microsoft, esta tasa de errores es la más baja de la industria.

IBM había mejorado su software hasta obtener solamente un 6.6% de tasa de errores, pero claramente Microsoft lo ha sobrepasado. El año pasado, la tasa de error de sicha empresa era del 8% y hace dos décadas, era de más del 43% según indica un blog de Microsoft.

Durante el desarrollo de la inteligencia artificial, los investigadores han buscado equiparar las habilidades de las máquinas con las de los seres humanos como lo son el habla, la visión y el oído.

A pesar de que el logro de Microsoft está solamente 0.3% por debajo del de IBM, cada mejora es vista como un gran paso para lograr llegar a la misma capacidad del ser humano.

La tasa de error de los seres humanos con respecto al reconocimiento del habla es de alrededor del 4%, según indica IBM.

“Este hito beneficia un gran rango de tecnologías desarrolladas por la comunidad de científicos dedicados a la inteligencia artificial de diferentes organizaciones durante los últimos 20 años”, afirma Huang.

Algunas de estas tecnologías incluyen sistemas inspirados en la biología como lo son las redes neurales, una técnica de entrenamiento conocida como aprendizaje profundo, y la adopción de unidades de procesamiento gráfico (GPU) para procesar algortimos.

Durante los últimos dos años, las redes neurales y el aprendizaje profundo han permitido a los investigadores en inteligencia artificial desarollar y entrenar sistemas en reconocimiento de voz avanzado, reconocimiento de imágenes y procesamente natural del lenguaje.

El año pasado, Microsoft creó un sistema de reconocimiento de imágenes que resultó ser mejor que el de los seres humanos.

Relacionado: Escribir por voz es más rápido que teclear

A pesar de que fue diseñado inicialmente para las gráficas de las computadoras, los GPU son ahora utilizados para procesar algoritmos complejos. Cortana puede proccesar 10 veces más información utilizando GPU que a través de los métodos utilizados anteriormente, de acuerdo a Microsoft.

Con estos avances, es muy seguro que repetirle una frase a un robot por teléfono será un asunto del pasado.

Juliana Jara
Former Digital Trends Contributor
ChatGPT da el tiro de gracia a GPT-4o, GPT-4.1, GPT-4.1 mini y o4-mini
ChatGPT

Una importante reducción de modelos hará desde el 13 de febrero la gente de OpenAI en ChatGPT, ya que el popular chatbot  pronto descontinuará varios de los modelos GPT.

En dos semanas OpenAI eliminará los modelos GPT-4o, GPT-4.1, GPT-4.1 mini y OpenAI o4-mini de ChatGPT. La retirada de estos modelos antiguos probablemente no afectará a la mayoría de los usuarios, ya que OpenAI afirma que la mayoría de los usuarios han pasado a GPT-5.2 (y que GPT-4o solo lo usa el 0,1 por ciento de los usuarios a diario).

Read more
Windows 11 sumaría una barra superior al estilo macOS gracias a PowerToys
Computer, Electronics, Pc

Microsoft está probando un cambio llamativo en la interfaz de Windows 11: una barra de menú superior opcional, similar a la de macOS o algunas distribuciones de Linux. La idea surge desde el equipo de PowerToys, la suite de herramientas avanzadas para usuarios de Windows, que trabaja en un nuevo componente llamado Command Palette Dock.

Según los primeros detalles publicados por la propia Microsoft y recogidos por medios especializados, el dock funcionaría como una franja permanente en el borde de la pantalla —por defecto, en la parte superior— que mostraría información del sistema y accesos directos a herramientas y comandos. La propuesta contempla también la posibilidad de ubicarla en los laterales o en la parte inferior, según prefiera cada usuario.

Read more
Anthropic enfrenta multimillonaria demanda por piratería musical
Pirata

La empresa de inteligencia artificial Anthropic, creadora del popular modelo de lenguaje Claude, se encuentra en el ojo del huracán tras una nueva demanda presentada por los principales sellos discográficos del mundo. Universal Music Publishing Group, Concord Music Group y ABKCO acusaron formalmente a la compañía de utilizar más de 20 mil canciones protegidas por derechos de autor sin autorización para entrenar sus modelos de IA.

Según el documento legal presentado el pasado 28 de enero ante los tribunales de California, Anthropic descargó intencionalmente millones de archivos mediante BitTorrent desde sitios de piratería como LibGen y PiLiMi, incluyendo composiciones musicales y partituras pertenecientes a artistas consagrados como The Rolling Stones, Neil Diamond, Elton John y Coldplay, entre muchos otros.

Read more