Así mejora la IA de Facebook las descripciones de fotos para personas con discapacidad visual
Facebook desvela el funcionamiento de su IA de reconocimiento de fotos que genera descripciones de las fotos para personas con discapacidad visual.
21 enero, 2021 11:04Facebook lleva tiempo introduciendo funciones en España para hacer el uso de la red social más sencillo para personas con alguna discapacidad, como discapacidad visual. La red social ha hecho público el funcionamiento de su sistema de reconocimiento de imágenes, que permitirá que personas con problemas de visión escuchen una descripción de una foto. Incluso aunque el usuario que haya subido la foto no haya puesto un texto.
Desde 2016 Facebook tiene una tecnología de texto alternativo automático (AAT) que es capaz de generar una descripción para una foto. Se ha lanzado una nueva versión de esta tecnología, donde hay diversas mejoras. Entre ellas está la mejor capacidad a la hora de reconocer caras o la cantidad de personas en una foto.
Facebook sabe lo que hay una foto
La tecnología AAT de Facebook permite reconocer objetos en una foto, de manera que sepa si hay personas y cuántas, los objetos presentes, animales o el lugar en el que se tomó la foto (si se reconoce algún monumento o lugar de interés en la misma) o decir si se ha tomado en un interior o exterior, por ejemplo. Para que esto sea posible se usa una red neuronal que ha sido entrenada con millones de ejemplos y parámetros.
Esta tecnología puede incluso detectar el tamaño relativo de los objetos. Podrá decir si en una foto hay tres personas, la posición de esas personas en la foto y analizar la posición de cada una de ellas respecto al espacio en el que se ha tomado dicha imagen. También puede determinar cuáles son los elementos más destacados o principales y los secundarios en una foto. Además, es cada vez más precisa en este tipo de análisis.
Inicialmente, AAT de Facebook era capaz de reconocer unos 100 conceptos sencillos (árbol, montaña…), mientras que actualmente son más de 1.200 conceptos los que puede reconocer. Para entrenar esta tecnología la red social usa fotos tanto subidas en su app como en Instagram, usando los hashtags de las mismas. Esta gran base de datos les permite reconocer multitud de elementos, como tipos de comida, eventos, la actividad que realizan, el color de piel o género de las personas.
Esta tecnología de Facebook busca principalmente ayudar a personas con discapacidad visual, emitiendo una descripción precisa de lo que se ve en dicha imagen. Aunque al mismo tiempo sorprende la enorme cantidad de datos que la red social recopila para poder saber qué hay en cada foto de forma precisa. Según comenta la red social, estas descripciones están disponibles en un total de 45 idiomas diferentes.