La inteligencia artificial es mucho más que un asistente personal con la voz de Scarlett Johansson que se ríe de tus bromas y resuelve todas tus dudas. Su potencial es inmenso en áreas como la investigación científica, pero también aplicada a elementos de hardware ya existentes, como los auriculares. La evolución de estos dispositivos de audio se ha disparado en los últimos años, y en España ya disponemos de productos que ofrecen un aislamiento casi total del exterior, sobre todo en modelos de alta gama como los AirPods Pro o los nuevos Sonos Ace presentados hace apenas unos días.
La cancelación de ruido activa presente en estos modelos es toda una bendición en lugares ruidosos, como el transporte público, pero tiene un problema: puedes perderte algo importante de lo que está sucediendo en tu entorno. Para evitarlo existen modos de transparencia, pero dejan pasar todos los sonidos y al final acabas subiendo más el volumen de lo que estás escuchando. Desde hace años, un equipo de investigadores de la Universidad de Washington trabaja en un sistema que utiliza IA para, en última instancia, elegir qué sonidos o qué voces se quieren escuchar en cualquier entorno y eliminar todo lo demás con sólo pulsar un botón.
Si hace unos meses presentaban su trabajo en un estudio publicado en ACM Digital Library, ahora Shyam Gollakota y sus compañeros han presentado la primera aplicación práctica de este proyecto en la Conferencia ACM CHI sobre Factores Humanos en Sistemas Informáticos que se ha celebrado en Honolulu (EEUU). La función, llamada Target Speech Hearing (TSH), permite al usuario mirar a la persona a la que desea oír durante unos segundos para que el sistema lo identifiquen con el orador objetivo. Así, los auriculares cancelan todos los demás sonidos y reproducen en tiempo real únicamente la voz del interlocutor deseado.
Cancelación de ruido selectiva
"En entornos muy concurridos, el cerebro humano puede centrarse en el habla de un orador determinado, dado su conocimiento previo de cómo suena. Presentamos un novedoso sistema auditivo inteligente que consigue esta capacidad, permitiendo que la audición permite el TSH ignorando todas las interferencias y ruidos, excepto los sonidos procedentes del hablante objetivo", indican los investigadores en el resumen de su intervención en la Conferencia ACM CHI.
Para comprender su funcionamiento, primero hay que entender cómo funciona la cancelación de ruido activa (ANC). Este sistema ya habitual en todo tipo de auriculares utiliza las interferencias de ondas para suprimir casi todo el ruido procedentes del exterior. Y es que los sonidos que escuchamos son ondas de baja frecuencia, siempre por debajo de los 20 KHz.
Gracias a los micrófonos incluidos en los propios auriculares y a un software específico, se pueden crear ondas de sonido artificial capaces de compensar o contrarrestar sonidos concretos, utilizando un fenómeno llamado interferencia destructiva de ondas. De esta manera, los micrófonos se encargan de recoger el ruido procedente del exterior, para que este sea procesado por los auriculares y generar una señal exactamente igual pero de fase opuesta.
Las principales aportaciones técnicas del sistema desarrollado por Gollakota y su equipo son "una red neuronal que puede lograr la extracción biaural del sonido objetivo en presencia de sonidos interferentes y ruido de fondo" y "una metodología de entrenamiento que permite generalizar nuestro sistema al uso en el mundo real". Es decir, que se puede seguir entrenando la IA para conseguir más tipos de sonidos y mejorar su precisión.
Cómo funciona
"Tendemos a pensar en la IA como un chatbot basado en la web que responde a preguntas", explica en un comunicado de prensa Gollakota, autor principal y profesor de la Facultad de Informática e Ingeniería Paul G. Allen de la Universidad de Washington. "Pero en este proyecto desarrollamos una IA para modificar la percepción auditiva de cualquier persona que lleve auriculares, dadas sus preferencias. Con nuestros dispositivos, ahora puedes oír claramente a un solo orador aunque estés en un entorno ruidoso con muchas otras personas hablando".
El sistema se basa en los mismos principios de la audición semántica desarrollados previamente por los investigadores. Lo único que tiene que hacer el usuario para usar el TSH es tocar un botón en el auricular derecho mientras dirige la cabeza hacia la persona que desea escuchar. Las ondas sonoras de la voz de ese interlocutor deben llegar simultáneamente a los micrófonos de ambos lados de los auriculares, aunque todavía hay un pequeño margen de error de 16 grados.
Una vez recibe esa señal, el dispositivo la envía a una CPU integrada para procesarla, y es la IA la encargada de aprender a gran velocidad los patrones vocales del orador. El sistema se centra en la voz de ese orador y sigue reproduciéndola al oyente, incluso cuando ambos están en movimiento.
El sistema consigue una mejora de la calidad de la señal de 7,01 dB utilizando menos de 5 segundos de registro de audio. Además, a medida que esta persona continúa hablando, el software tiene más datos para seguir entrenándose, por lo que su capacidad de filtrar la voz y reproducirla con fidelidad sigue mejorando.
Para comprobar su eficacia, los responsables de este avance lo pusieron a prueba con 21 sujetos, con un resultado muy positivo: de media, valoraron la claridad de la voz de la persona elegida con el doble de puntuación que la del audio sin filtrar. Sus limitaciones de momento son que sólo puede registrar un orador de forma simultánea, y únicamente si no hay otra voz alta procedente de la misma dirección. En cualquier caso, el usuario puede volver a pulsar el botón para mejorar el sonido que está recibiendo.
De momento el THS y los demás avances del equipo sólo pueden utilizarse en altavoces circumaurales con cable, pero ya están trabajando en incorporar todas estas funciones también en los auriculares in-ear y en los audífonos, ya que es una función que podría ayudar especialmente a las personas con problemas de audición. En todo caso han mejorado la anterior versión del sistema, que requería la conexión con un smartphone para procesar toda la información.