Esta es la escena: vas caminando por la calle, estás con tus auriculares con cancelación de ruido, y quieres silenciar primero el ruido de los autos solamente, eso te dejará escuchando los pájaros en los árboles, y el ruido de los peatones y de cualquier otro emisor que esté por ahí, luego decides silenciar también a las aves y el ladrido de los perros, así que casi que solo sientes tus pasos. Eso que parece ciencia ficción, ya lo podrás hacer en el futuro gracias a un algoritmo de inteligencia artificial (IA) de aprendizaje profundo.
El sistema, que los investigadores de la Universidad de Washington denominan «audición semántica», transmite todos los sonidos capturados por los auriculares a un celular, que cancela todo antes de permitir que los usuarios elijan los tipos específicos de audio que les gustaría escuchar. Describieron el prototipo en un artículo publicado el 29 de octubre en la Biblioteca Digital del IACM.
Una vez que los sonidos se transmiten a la aplicación, el algoritmo de aprendizaje profundo integrado en el software significa que pueden usar comandos de voz, o la aplicación en sí, para elegir entre 20 categorías de sonido para permitir. Estos incluyen sirenas, llantos de bebés, aspiradoras y chips para pájaros, entre otros. Eligieron estas 20 categorías porque sintieron que los humanos podían distinguirlas con una precisión razonable, según el artículo. El retraso de tiempo para todo este proceso es de menos de una centésima de segundo.
«Imagínese poder escuchar el canto de los pájaros en un parque sin escuchar el parloteo de otros excursionistas, o poder bloquear el ruido del tráfico en una calle concurrida y al mismo tiempo poder escuchar las sirenas de emergencia y las bocinas de los automóviles o poder escuchar la alarma en el dormitorio pero no el ruido del tráfico», sostuvo Shyam Gollakota, profesor asistente en el Departamento de Ciencias de la Computación e Ingeniería de la Universidad de Washington, a Live Science.
Su equipo utilizó primero grabaciones de AudioSet, una base de datos de grabaciones de sonido ampliamente utilizada, y combinó esto con datos adicionales de cuatro bases de datos de audio separadas. El equipo etiquetó estas entradas manualmente y luego las combinó para entrenar la primera red neuronal.
Además esto se combinó con más de 40 horas de ruido de fondo ambiental, ruidos generales que encontraría en espacios interiores y exteriores, y grabaciones capturadas de más de 45 personas con una variedad de micrófonos.
«La audición semántica es el primer paso hacia la creación de audífonos inteligentes que pueden aumentar a los humanos con capacidades que pueden lograr una audición mejorada o incluso sobrehumana», continuó Gollakota, lo que probablemente signifique amplificar los ruidos silenciosos o permitir que los usuarios escuchen frecuencias previamente inaudibles.
«En la industria estamos viendo chips personalizados que están diseñados para el aprendizaje profundo integrados en dispositivos portátiles. Por lo tanto, es muy probable que este tipo de tecnología se integre en los auriculares que estamos utilizando».