Skip to main content

Lo bueno, lo malo y lo feo de Duplex, la tecnología de voz del Asistente de Google

Nuestra experiencia con Duplex, la tecnología de voz del Asistente de Google

Imagina que trabajas como recepcionista en algún popular restaurante. Atiendes una llamada telefónica, interactúas con la voz al otro lado de la línea, y anotas la reservación que se pidió. Pero mientras realizas tu trabajo como siempre, no te diste cuenta de que la voz no pertenecía a un ser humano, sino a una entidad de inteligencia artificial. En realidad, reservaste una mesa para el Asistente de Google.

Esto es precisamente lo que pudimos ver como parte de una demostración exclusiva para la prensa, que Google realizó para su tecnología Duplex. La tecnología, anunciada por primera vez en la conferencia de desarrolladores en mayo, permite reservar una mesa en un restaurante, programar una cita para un corte de cabello, o averiguar los horarios de alguna tienda o negocio, todo, a través de la voz del Asistente de Google.

Recommended Videos

En efecto, el Asistente llamará al restaurante o a la tienda después de que realices una solicitud desde tu teléfono o bocina inteligente habilitada, como Google Home o Mini, y minutos después recibirás una notificación confirmando que tus planes están reservados oficialmente, o, en algunos casos, que la llamada no pudo ser completada.

Julian Chokkattu/Digital Trends

La demostración en la conferencia de mayo fue asombrosa, pero no sin controversia. Las preocupaciones se plantearon: ¿Por qué la IA tenía que sonar tan real? ¿por qué no se anunció que se trataba de un asistente inteligente a la persona que respondió la llamada? Y debido a que la llamada fue grabada, algunos cuestionaron si la tecnología violaría ciertas leyes que rigen las llamadas telefónicas.

Desde ese momento, Google ha aclarado su posición, y ahora tenemos algunas respuestas. Digital Trends pasó algún tiempo con el equipo detrás de Duplex y probamos la tecnología por nosotros mismos. Pero antes de sumergirnos en nuestra experiencia, echemos un vistazo a los nuevos detalles que desconocemos sobre cómo y dónde funcionará Duplex.

Qué es Duplex, qué hace y dónde funcionará

Duplex es una tecnología en desarrollo que permite al Asistente de Google hacer llamadas telefónicas a nombre del usuario, y se deriva de años de investigación y trabajo en inteligencia artificial para el procesamiento del lenguaje natural.

Google Duplex programando una cita para un salón de belleza Google

«Ahora podemos entender y generar una conversación natural», dijo Nick Fox, vicepresidente de gestión de productos de Google. «Esas tecnologías se aplican con Duplex para tener una conversación natural y atractiva, que se adapta a lo que sucede dentro de la interacción para hacer las cosas».

Ayudarte a “hacer las cosas” es el objetivo de Google para el Asistente, y con Duplex la compañía comienza con tres tareas específicas: reservar una mesa en un restaurante, encontrar el horario de una tienda, y programar una cita para un salón de belleza. Duplex no puede hacer nada más que esto actualmente, por lo que si una consulta no es pertinente (por ejemplo, preguntar sobre el clima o puntajes deportivos), el Asistente no te entenderá. De manera similar, no se puede pedirle ayuda al Asistente para hacer llamadas que no estén relacionadas con las tareas antes mencionadas.

Fase de prueba inicial

Durante la fase de prueba de Google este verano, Duplex solo funcionará con negocios y usuarios selectos en los Estados Unidos, y solo estará disponible en restaurantes y salones de belleza que no tengan un sistema de reserva en línea.

Imagen utilizada con permiso del titular de los derechos de autor

Google probará en las próximas semanas las llamadas para preguntar el horario de tiendas o negocios, y más adelante este verano, la prueba se ampliará para reservas y citas de cortes de cabello. Habrá muchas pruebas y ajustes durante este período, por lo que el resultado final de Duplex podría ser un poco diferente de lo que ya hemos visto. Además, las empresas podrán optar por no recibirlas, si no quieren llamadas del Asistente de Google.

«Lo que estás viendo es una tecnología que está en sus primeras etapas», dijo Fox. «Queremos asegurarnos de que lo hagamos bien, pero aquí estamos viendo algo bastante temprano en el proceso».

Así funciona en un escenario real

La demostración, que tuvo lugar en el restaurante Thep Thai en la ciudad de Nueva York, fue fuertemente controlada. Primero, Google realizó una presentación que muestra el proceso general de realizar y finalizar una llamada, usando la tecnología en tiempo real.

La idea es decirle al Asistente de Google -en tu teléfono o a través de Google Home- que deseas “reservar una mesa en (nombre del restaurante) para dos personas a las 8 p.m. mañana”. Después de confirmar, dirá que va a llamar al restaurante y se comunicará contigo pronto.

Cuando el empleado del restaurante descuelgue el teléfono, el Asistente dirá lo siguiente o algo similar: «Hola, llamo para hacer una reservación. Soy el servicio automatizado de reservas de Google, así que registraré la llamada. ¿Puedo reservar una mesa para el jueves?” La llamada se graba para que los operadores humanos en Google puedan escucharla, anotar la conversación, y resaltar cualquier error que Duplex haya cometido, para mejorar el servicio.

Duplex es una tecnología en desarrollo que permite al Asistente de Google hacer llamadas telefónicas a nombre del usuario.

El asistente responde a cada pregunta, por ejemplo, a qué hora es la reserva, cuántas personas hay en el grupo y el nombre del cliente para la reserva, y la conversación termina cortés y puntualmente. Si se le solicita información, como la dirección de correo electrónico de un usuario, el Asistente dirá que no tiene permiso para proporcionarla.

Una vez hecho esto, la persona que hizo la reserva a través del Asistente ahora recibirá una notificación que le informará que la mesa ha sido reservada, y eso se agregará automáticamente a Google Calendar. Antes de la fecha, el usuario recibirá una notificación de recordatorio y la oportunidad de cancelar la cita en caso de que ya no pueda realizarla.

El propietario del restaurante de Thep Thai, donde se realizó la prueba, dijo que mucha gente hace reservaciones y luego no se presentan. Él tiene la esperanza de que este sistema, que ofrece una manera fácil de cancelar una reserva, signifique menos mesas vacías.

Nuestra experiencia

Después de la demostración principal, Google nos permitió probarlo y responder. Cuando atendimos la llamada, intentamos confundir a Duplex y le presentamos algunas complicaciones, pero el Asistente las manejó bien. Le pedimos que se mantenga en la línea, a lo que respondió «mhmm», en lugar de un «sí» verbal. Cuando le dijimos que no teníamos reservaciones disponibles a las 6 p.m., respondió con un rango entre las 6 p.m. y 8 p.m., y se conformó con nuestra recomendación de las 7:45 p.m.. Luego, pedimos un nombre y número de teléfono para la reserva, y hasta preguntamos si podía deletrear el nombre, lo cual hizo con éxito.

Google Duplex reservando una mesa en un restaurante Google

Es impresionante lo bien que el Asistente manejó las demostraciones, aunque sí encontramos un momento en el que necesitó recurrir a un operador humano. Fue cuando alguien preguntó si el cliente estaba de acuerdo con recibir correos electrónicos del restaurante. El asistente respondió con «Lo siento, creo que me confundí», y dijo que se pondría en contacto con un supervisor. El operador humano rápidamente asumió el control, y terminó la reservación.

Una interesante evolución

Las primeras versiones de prueba de Duplex, cuyo audio Google tocó para nosotros, sonaron increíblemente robóticas. Ahora, la historia es diferente, y conseguir que Duplex llegue al nivel en el que está requirió de mucho trabajo manual y humano. En un inicio, operadores humanos realizaron llamadas a restaurantes, anotaron conversaciones, y alimentaron los resultados y sus variaciones a Duplex.

Intentamos confundir a Duplex y le presentamos algunas complicaciones, pero el Asistente las manejó bien.

La segunda etapa involucró a más operadores que escuchaban las llamadas hechas por el Asistente, y si las cosas se desviaban, el operador se unía para tomar el control y asegurarse de que la llamada sea exitosa. Esto permitió que el equipo identificara los problemas del servicio, anotara esas conversaciones, y las introdujera en los algoritmos de aprendizaje automático para que Duplex pudiera aprender.

La etapa final de prueba es el modo automático, donde el sistema automatizado realiza llamadas y las completa. Algoritmos incorporados en el sistema le permiten al Asistente volver al objetivo principal de completar la tarea, aun cuando recibe respuestas complicadas. Si el sistema realmente no sabe qué hacer a continuación, abandonará con gracia la conversación y el operador humano asumirá el control.

Los «ums» y «ahs»

A lo largo del proceso de enseñanza, Google hizo hincapié en hacer que el Asistente suene más natural, y menos como un robot. Después de la demostración en Google I /O, los críticos preguntaron por qué Google intenta mezclar «ums” y “ahs» para hacer que el Asistente suene más humano. Huffman dijo que las disfluencias del habla se agregaron para mantener el flujo de la conversación.

«No estamos tratando de engañar o suplantar, pero como escuchamos en la grabación inicial, no sonaba muy natural, no sonaba muy humano», dijo Huffman. «Como resultado de eso, el Asistente no tuvo mucho éxito en completar las tareas. Mucha gente cortaba la llamada, o se confundía con lo que estaba diciendo. La conversación simplemente se interrumpía porque no se sentía natural».

Huffman dijo que la falta de fluidez en el habla, según los lingüistas, es una parte clave de mantener la conversación humana entre dos personas. Es fácil ver qué tan bien funciona esto al escuchar las conversaciones con el Asistente, y los resultados actuales están lejos de la grabación original.

¿La conveniencia vale la pena?

Al fin y al cabo, Duplex se trata de conveniencia. Te ahorra un poco de tiempo y también puede ser conveniente para las empresas. Google también dijo que hay una gran oportunidad aquí para ayudar a las personas con discapacidades o que tienen problemas para hablar.

Huffman dijo que pensaba en Duplex como una evolución de las máquinas de voz automatizadas del pasado. «Hoy, si llamas a aerolíneas o bancos, obtendrás algo mucho mejor», dijo. «Escucharás una voz que suena mucho más natural e interactiva. En Duplex, en realidad solo estamos tomando esa misma idea es un paso más allá, evolucionando la conversación y haciéndola más natural para que sea más exitosa para los usuarios y las empresas».

Keynote (Google I/O '18)

Sin embargo, no estamos seguros si los operadores humanos tendrán acceso a tu número de teléfono y nombre completo, ya que eso implicaría un poco de riesgo de privacidad. También nos preguntamos si Duplex admitiría varios idiomas en el futuro. Nos comunicamos con Google, y seguramente habrá más a medida que avance la tecnología.

Nuestra Opinión

Según lo que hemos visto hasta ahora, Duplex es sin duda una tecnología prometedora, ¿es algo que debemos abrazar o temer? Solo el futuro lo dirá. Lo cierto es que estamos avanzando constantemente hacia un futuro en el que cada vez más servicios no requerirán de interacción humana.

Si bien Duplex está empezando con algunas llamadas telefónicas básicas, la inteligencia artificial sigue mejorando en todos los aspectos, incluyendo en las conversaciones, lo que facilitará el acceso y su uso en una miríada de industrias. Depende de nosotros, como individuos y como sociedad en general, decidir cuánta interacción debería hacerse a través de un asistente artificialmente inteligente… y si vale la pena volver a levantar el teléfono cuando recibamos una llamada.

Milenka Peña
Ex escritor de Digital Trends en Español
Milenka Peña es periodista, escritora, productora y conductora de radio y televisión, nominada a los Premios Emmy por…
Los asistentes de Google por fin se van a quedar callados
asistentes de google se quedan callados curtis berry s13qx dhsfq unsplash

Los asistentes de Google tienen ese problema de que les cuesta quedarse callados, porque ante cada instrucción responde con algo. Por ejemplo, si le dices "Ok Google, apaga las luces del living", realizará la acción, pero además te dirá después: "Las luces del living se han apagado".

Ahora, en una publicación de blog, los de Mountain View informan que los asistentes no responderán tan seguido, y en vez de voz usarán una campanilla.

Leer más
Aterrador: IA clona voz de una chica y extorsionan a la familia
ia clona voz chica extorsionan familia michael lima q9aqu6g49iw unsplash

Una situación aterradora y que muestra las implicancias negativas de la inteligencia artificial se vivió en Arizona, Estados Unidos, según relató el New York Post y se trata de lo que vivió la familia DeStefano, luego de que un grupo de delincuentes clonara la voz de su hija para inventar un secuestro y pedir un lucrativo rescate.

Jennifer DeStefano reportó haber recibido la llamada de "su hija" supuestamente secuestrada para inmediatamente pasar el teléfono al secuestrador quien le pidió un millón de dólares para no dañarla. Jennifer declaró que ni por un segundo dudó que fuera la voz de su hija.

Leer más
Los ataques ultrasónicos están creando caos en los asistentes de voz
ataques ultrasonicos caos asistentes de voz thomas kolnowski ljg19qhtzzq unsplash

Un nuevo tipo de ataque está en ciernes en la industria tecnológica, se trata de NUIT, o ataque ultrasónicos, troyanos inaudibles de ultrasonido cercano, que pueden explotar vulnerabilidades en dispositivos IoT equipados con micrófono y asistentes de voz como Apple Siri, Google Assistant y Microsoft Cortana. Los ataques no pueden ser escuchados por los humanos, pero pueden convertir efectivamente los dispositivos inteligentes en dispositivos potencialmente maliciosos.

Sin embargo, por ahora los virus han sido creados por investigadores de la Universidad de Texas, San Antonio, y la Universidad de Colorado y se mostrarán en el próximo 32º Simposio de Seguridad USENIX, del 9 al 11 de agosto, en Anaheim, California. El equipo de investigación proporcionó una demostración preliminar a The Register, mostrando dos ataques separados: NUIT-1 y NUIT-2.

Leer más