¿Por qué los subtítulos automáticos funcionan mal? La clave está en tu cerebro.
Noticias relacionadas
- Airbus presenta un avión con las alas de un ave de presa, ¿el futuro de la aviación?
- Mira cómo una estación espacial china cae a la Tierra destruyéndose en la reentrada
- Una estación espacial china va a caer a la Tierra, aquí es donde ocurrirá
- Crean una computadora dentro de un juego de construir ciudades... y funciona a base de caca
Aún no sabemos cómo podemos escuchar sonidos, y la prueba está en YouTube. En cualquier vídeo tenemos un botón inferior capaz de activar los subtítulos automáticos, mediante un programa que aísla la voz que se escucha en el vídeo y nos aparece en el vídeo casi de manera simultánea en forma de subtítulo. El problema es que el programa funciona bastante mal, cualquiera que haga la prueba verá que falla una de cada cinco palabras, y eso en caso de que el vídeo sea de una persona hablando claramente a un micrófono sin ruido de fondo. En caso de que la voz esté superpuesta con alguna música de fondo (aunque sea a poco volumen) el programa falla estrepitosamente o ni siquiera reconoce la presencia de una voz.
Nosotros somos capaces perfectamente de distinguir una voz de una música de fondo y podemos interpretarla correctamente. Si no fuera así asistir a un musical se convertiría en un desafío para el espectador. ¿Entonces por qué los programas de reconocimiento de voz no son capaces de imitarnos?
Para separar la voz de la música y ser capaces de interpretar las palabras, los programas de reconocimiento de voz aplican una herramienta matemática llamada transformada de Fourier, que permite separar el sonido en diferentes frecuencias o tonos, seleccionando las pertenecientes a la voz humana y eliminando digitalmente las demás. El método es válido pero tiene ciertas limitaciones, como la posibilidad de eliminar frecuencias que sí pertenecen a una voz distorsionándola, o incluir frecuencias de la música de fondo, haciendo inteligible la palabra, por eso fallan los subtítulos automáticos. Pero el principal problema es el límite de Gabor, una regla que indica que es imposible distinguir con la máxima calidad el ritmo de un sonido y su frecuencia a la vez, es decir, podemos mejorar el programa para medir el ritmo de repetición de un sonido pero a cambio perderemos información sobre su tono y viceversa.
En caso de nuestro oído, todo el proceso de diferenciación de la voz del resto de ruidos se produce en nuestro cerebro. Generalmente la mayoría de científicos creía que en nuestro cerebro el sonido se descomponía en frecuencias aplicando la transformada de Fourier y siguiendo el mismo proceso del programa de Youtube. Si esto fuera así, deberíamos sufrir la misma limitación que estos programas, es decir, estaríamos a merced del límite de Gabor y no deberíamos ser capaces de reconocer tonos y ritmos a la vez.
Para comprobarlo, se han llevado a cabo varias investigaciones tratando de comprobar si este fenómeno se produce en humanos. El primero de estos experimentos fue realizado en 1970 y demostraba que el oído humano podía superar el límite de Gabor y que nuestro cerebro debía seguir otro sistema de procesamiento del sonido, sin embargo el artículo no tuvo mucha repercusión principalmente porque no se sabía exactamente cómo funcionaba el oído interno y aun no existían programadores de discriminación de sonidos que pudieran estar interesados en el tema.
La última investigación sobre el tema fue realizada hace unos meses por Jacob Oppenheim y Marcelo Magnasco de la Universidad Rockefeller, en la que realizaron pruebas en voluntarios para comprobar su capacidad de distinguir ritmos y tonos de diferentes sonidos. Nuevamente demostraron que el oído humano supera el límite de Gabor indicando que nuestro cerebro debe usar un sistema más complejo para reconocer los sonidos.
El problema es que los sistemas matemáticos candidatos a ser usados por nuestro cerebro son demasiado complejos y solo se han podido crear unas pocas soluciones matemáticas capaces de imitar muy ligeramente las propiedades reales del oído humano. Aun no se sabe qué tipo de sistema de procesamiento usa nuestro cerebro para interpretar el sonido y separar la voz.
Ahora informáticos de todo el mundo tratan de encontrar estas soluciones matemáticas para crear mejores programas de reconocimiento de voz imitando a nuestro cerebro. Por ahora el mejor programa de subtítulos automáticos seguimos siendo nosotros mismos.
Fuente | Physics World