Skip to main content

Escribir por voz es más rápido que teclear

preguntas para Siri
Imagen utilizada con permiso del titular de los derechos de autor
Dictarle a una computadora es ahora mucho mejor que hace una década. Pero, ¿qué tan mejor?

Ese es un cálculo que científicos de la Universidad de Stanford, de Washington y Baidu -el gigante chino de las búsquedas- deseaban conocer.

Relacionado: Escribe donde quieras, cuando quieras y sin necesidad de un teclado… Sólo con tus dedos

Por eso, crearon un experimento en el que como resultado final, los seres humanos terminaron siendo aplastados por las máquinas términos de velocidad y precisión.

El profesor de Ciencias Informáticas de la Universidad de Stanford, James Landay afirma que se le ocurrió hacer dicho estudio cuando estaba en un café con el profesor adjunto Andrew Ng., quien trabaja ahora en Baidu.

“Andrew mencionó que el reconocimiento de voz en Baidu estaba mejorando mucho pero que no conocían un experimento preciso para cuantificarlo”, afrma Landay a Digital Trends.

El software de reconocimiento de comandos de voz de Baidu llamado Deep Speech 2 está basado en una red neuronal de aprendizaje profundo. Es una máquina impresionante que es capaz de entrenarse a sí misma all analizar enormes bases de datos de comandos de voz.

“Antes, no teníamos los datos y las habilidades computacionales para construir estos modelos en los cuales la computadora pudiera reconocer diferentes acentos y patrones de habla”, afirma Landay.

Poco después, la conversación casual entre Landay y Ng se transformó en un experimento que funcionaba a toda marcha.

Los participantes hablaban en chino o en inglés. Todos los participantes habían crecido en un contexto donde es usual enviar mensajes de texto y todos estaban utilizando el teclado estándar de un iPhone.

Quienes hablaban inglés, utilizaban entonces el teclado QWERTY, mientras que los chinos utlizaban el teclado Pinyin de Apple.

En ambos casos, el reconocimiento de voz podía escribir tres veces más rápido que los seres humanos.

También, la tasa de error fue 20.4% más baja en inglés y 63.4% más baja para el mandarín.

“Mi expectativa era que los comandos de voz fueran más rápidos”, afirma Landay. “Sabemos esto porque uno puede hablar más rápido que escribir. El probema era que en el pasado los comandos de voz tenían muchos errores y generaban una demora (…) Lo que no esperaba era que fuera tres veces más rápido”, añade.

El teclado Flesky es el más rápido y batió récords al escribir una frase de 124 palabras en solo 18.44 segundos.

Relacionado: El nuevo teclado de Google es lo primero que vas a querer descargar en tu iPhone

En este caso, se utilizado el teclado de un iPhone porque daba una herramienta estándar y “la mayoría de gente no se toma el tiempo de aprender a manejar teclados alternativos”, afirma.

Lo siguientes progresos incluirán reconocimiento de nombres y mejor reconocimiento de vos en lugares ruidosos.

Recomendaciones del editor

Juliana Jara
Ex escritor de Digital Trends en Español
Juliana Jara es politóloga egresada de la Universidad ICESI de Cali, Colombia y decidió poco después estudiar una…
La actualización de ChatGPT finalmente rompe la barrera del texto

OpenAI está implementando nuevas funcionalidades para ChatGPT que permitirán que las indicaciones se ejecuten con imágenes y directivas de voz además de texto.

La marca AI anunció el lunes que pondrá estas nuevas características a disposición de los usuarios de ChatGPT Plus y Enterprise durante las próximas dos semanas. La función de voz está disponible en iOS y Android en una capacidad opcional, mientras que la función de imágenes está disponible en todas las plataformas ChatGPT. OpenAI señala que planea expandir la disponibilidad de las imágenes y las funciones de voz más allá de los usuarios pagos después del lanzamiento escalonado.
Twitter/X
El chat de voz funciona como una conversación auditiva entre el usuario y ChatGPT. Presionas el botón y dices tu pregunta. Después de procesar la información, el chatbot le da una respuesta en el habla auditiva en lugar de en el texto. El proceso es similar al uso de asistentes virtuales como Alexa o Google Assistant y podría ser el preámbulo de una renovación completa de los asistentes virtuales en su conjunto. El anuncio de OpenAI se produce pocos días después de que Amazon revelara una característica similar que llegará a Alexa.

Leer más
¿No más GPU? Así es como podría verse el DLSS 10 de Nvidia
no mas gpu asi podria verse dlss 10 nvidia

Nvidia
La última versión de Deep Learning Super Sampling (DLSS) de Nvidia ya es un importante punto de venta para algunas de sus mejores tarjetas gráficas, pero Nvidia tiene planes mucho más grandes. Según Bryan Catanzaro, vicepresidente de Investigación de Aprendizaje Profundo Aplicado de Nvidia, Nvidia imagina que DLSS 10 tendría una representación neuronal completa, evitando la necesidad de que las tarjetas gráficas representen realmente un marco.

Durante una mesa redonda organizada por Digital Foundry, Catanzaro profundizó en lo que DLSS podría evolucionar en el futuro y qué tipo de problemas podría abordar el aprendizaje automático en los juegos. Ya tenemos DLSS 3, que es capaz de generar fotogramas completos, un gran paso adelante de DLSS 2, que solo podía generar píxeles. Ahora, Catanzaro dijo con confianza que el futuro de los juegos radica en la representación neuronal.

Leer más
Actualicé mi cuenta de Google One (y es posible que nunca más lo vuelva a hacer)
actualizar google one pesadilla shocked man with laptop computer sitting at table

Como periodista de tecnología y fanático de la fotografía, puedo recopilar miles de imágenes a un ritmo bastante rápido. Demasiado, quizá.

Y si también has pasado una cantidad considerable de tiempo en línea, es muy probable que estés conectado a algún tipo de almacenamiento en la nube pago. Para muchos, este sistema es Google One. Me dejé atrapar cuando el almacenamiento de Google era gratuito, pero alrededor de 2019, se estableció el servicio de suscripción de pago de Google One. A $20 dólares al año por 100 GB de almacenamiento, era una obviedad para alguien como yo, que almacena una tonelada de datos en línea. Pero unos años después, estoy exactamente en la misma situación que antes: necesito más espacio de almacenamiento. ¿Otra vez?

Leer más