Así aprende idiomas el asistente de voz de tu móvil
El asistente de voz de tu móvil es capaz de darte todo tipo de respuestas, pero, ¿alguna vez le has preguntado como aprende a hablar un nuevo idioma?
9 marzo, 2017 19:07Noticias relacionadas
- El fundador de Atari crea un juego que usa el Amazon Echo
- Los podcasts originales de Apple están cerca, ¿debería temblar la competencia?
- El nuevo MacBook Air tiene un SSD mucho más lento que el modelo anterior, ¿Apple lo ha vuelto a hacer?
- La mejor alternativa deportiva a los AirPods por fin ha llegado a España... y es de la propia Apple
El asistente de voz de tu móvil es capaz de darte todo tipo de respuestas, pero, ¿alguna vez le has preguntado como aprende a hablar un nuevo idioma?
Los asistentes de voz y los altavoces conectados han sido una de las tecnologías que más pasiones han levantado durante todo el 2016. Con Amazon expandiendo Alexa de forma lenta pero segura, Google entrando de lleno en el mercado y Apple yendo hacia un futuro al más puro estilo “Her” parece que en 2017 tampoco se van a quedar atrás.
Para hacer un buen asistente de voz no sólo hace falta una gran variedad de funciones sino que es necesario que la comunicación sea lo más fluida posible. No basta con que haya que hablar como si fuésemos un robot, es necesario poder mantener una conversación. Pero, ¿cómo se le enseña a un asistente de voz a hablar un idioma?
Enseñando a hablar a un ordenador
De todos los asistentes en el mercado Siri es el que más idiomas habla con diferencia (36), seguido por Cortana (7), Google Assistant (5) y Alexa (2). Un motivo de orgullo para el equipo de Alex Acero, jefe de la división de habla en Apple. Los procesos de trabajo de la compañía de Cupertino suelen ser todo un secreto, pero gracias a una reciente entrevista publicada en Reuters podemos averiguar cómo consiguen que Siri hable tantos dialectos.
Todo empieza con un grupo de personas a las que se les da un texto para leer en voz alta. La selección es bastante diversa, puesto que se tienen que captar todo tipo de acentos y variaciones regionales. Después los ingenieros de Apple se encargan de grabar todos los discursos y transcribirlos. De esta forma consiguen una representación canónica de las palabras y como suenan en distintos tipos de voces y personas. Todos estos datos en bruto se llevan después a un modelo de entrenamiento algorítmico que acaba siendo capaz de predecir la transcripción de palabras arbitrarias.
A partir de aquí el algoritmo es capaz de ir aprendiendo sobre la marcha según vaya recibiendo datos. Puesto que el reconocimiento de voz todavía es bastante básico en vez de lanzarlo en Siri Apple lo incorpora en el dictado de iOS y macOS. De esta forma puede recoger una cantidad inmensa (y variada) de datos anónimos de sus usuarios.
Estos ejemplos resultan mucho más realistas, puesto que incluyen un ruido de fondo natural y real. De ahí que Apple vuelva a coger una muestra con la que repetir el proceso inicial (el equipo transcribe a mano ciertas frases y palabras). Un paso que, según Alex Acero, reduce los fallos de reconocimiento a la mitad.
“Oye Siri, ¿Qué temperatura hace hoy en Madrid?”
A partir de aquí el equipo de Siri se centra en casar las distintas palabras y su significado con las distintas funciones y respuestas (grabadas por actores) que tiene el asistente. De esta forma se consigue que la conversación resulte más natural, puesto que no importa si preguntas “qué temperatura hace” o “cuántos grados hay” el asistente va a entender ambos como una misma pregunta y va a dar la misma respuesta. Si os parece fácil sólo tenéis que pararos a pensar cuántas formas (cultas o coloquiales) de preguntar sobre el tiempo existen en castellano.
Es un trabajo arduo puesto que, según Alex Acero, Apple comprueba qué tipo de preguntas realizan los usuarios a Siri cada dos semanas para actualizar las respuestas según las necesidades que se encuentren.