Herramienta de reconocimiento de imágenes que permite dividir cuentas

Herramienta de reconocimiento de imágenes que permite dividir cuentas Izan González El Androide Libre

Análisis

He probado el chip de los móviles del futuro: la cámara puede guiar a ciegos o dividir la cuenta de un restaurante

Maui (Hawái, EEUU)
Publicada

La presentación del nuevo procesador Snapdragon 8 Elite trae, más allá de una potencia nunca antes vista en un smartphone, una serie de herramientas y aplicaciones especialmente diseñadas para hacer la vida más fácil a miles de personas en España y en el resto del mundo. Emplean la inteligencia artificial para ejecutar tareas del día a día que antes eran muy complejas —o directamente imposibles de hacer en un teléfono— en sólo unos segundos; como puede ser borrar algún elemento en un vídeo.

Todas ellas beben directamente de la segunda generación de procesadores CPU Oryon, que la compañía presentó por primera vez hace justo un año, y que ahora llega a los smartphones tras haber experimentado algunas mejoras en aspectos clave como el rendimiento o la batería. El Snapdragon 8 Elite incorpora también mejoras importantes en el procesamiento de imágenes de las que beben directamente las cámaras integradas en los dispositivos.

Ambas partes, la visual que capta las cámaras y la potencia de procesamiento de sus nuevos núcleos, se combinan con la unidad de procesamiento neuronal (NPU, de sus siglas en inglés) Hexagon para ejecutar todo aquello que lleve su dosis de inteligencia artificial. Una de las novedades más importantes en este aspecto es la compatibilidad con IA multimodal capaz de reconocer más tipos de contenidos —como imagen— que amplia las posibilidades y agiliza notablemente cualquier tipo de tarea.

Haciendo cuentas

La nueva inteligencia artificial multimodal que Qualcomm incorpora en su nueva gama de procesadores permite incorporar algunas funciones de reconocimiento de objetos y establecerlos en un contexto. Uno de los ejemplos prácticos al que ha podido acudir EL ESPAÑOL - El Androide Libre durante el evento de presentación en la isla de Maui (Hawái, Estados Unidos) ha tenido como protagonista el ticket de un restaurante.

La inteligencia artificial incorporada es capaz de reconocer que se trata realmente de un ticket de compra donde se lista una serie de platos y bebidas. Basta realizar una foto para que comience un proceso de reconocimiento automático que no tarda más de un segundo y que abre la puerta a un amplísimo abanico de posibilidades.

Resultado de la IA de Qualcomm al pedirle que añada propina y divida el montante de un ticket

Resultado de la IA de Qualcomm al pedirle que añada propina y divida el montante de un ticket Izan González El Androide Libre Maui (Hawái)

El usuario del smartphone puede ordenar a la IA que, al total del ticket, añada una cierta cantidad de porcentaje destinada a la propina y que divida el resultado entre el número de comensales. En un par de segundos, el resultado se ejecuta y da el resultado directamente en pantalla. Además, detalla por defecto todos los cálculos realizados y cómo llega hasta la cifra final.

Esta capacidad de reconocimiento y contextualización —saber que se trata de una lista con platos de comida y otros ítems y que se encuadra dentro de un ticket de restaurante— es sólo una primera aproximación para lo que serán los teléfonos móviles más inminentes. Algunos modelos de Samsung, Xiaomi, Honor o Realme ya han anunciado que incorporarán este procesador en sus lanzamientos más inmediatos y tan sólo queda pendiente conocer cómo implantarán esta serie de capacidades.

Regresando al abanico de aplicaciones, esta IA de reconocimiento podría resultar especialmente útil para las personas con dificultades visuales. En otra prueba práctica realizada por Qualcomm, el dispositivo tan sólo necesita una foto para analizar la imagen tomada.

Describe aspectos objetivos como la apariencia de la persona —la ropa que lleva puesta, detalles sobre los accesorios como pulseras...— y lo contextualiza según la escena donde se encuentre. De esta forma, la IA fue capaz de reconocer que el sujeto de la imagen se encontraba en un evento o presentación dado que de su cuello colgaba una acreditación.

Según explicaron desde Qualcomm durante la presentación, el nuevo motor de IA incorporado en la NPU Hexagon proporciona un 45% más de rendimiento por cada vatio consumido respecto a anteriores versiones.

En anteriores procesadores, las órdenes, comandos y prompts que daba el usuario a viva voz tenían que pasarse a texto para que la IA pudiera comprender. Un trabajo extra que lastraba la experiencia de usuario al dilatar en el tiempo la respuesta y, en ocasiones, la pérdida de información al realizar la transcripción.

Ahora, puede obtener datos directamente de otros tipos de fuentes como audio, sonidos, fotos, vídeos, imagen captada en tiempo real por la cámara del teléfono o texto. Todo ese contenido se procesa directamente en el dispositivo sin necesidad de conexión a internet.

La mejor foto de tu mascota

Otro de los campos de aplicación de la IA pasa por conseguir la mejor instantánea de las mascotas. Según explicaron desde Qualcomm, el software ayuda a elegir al usuario entre 40, 50 o 60 fotos que se toman en cada ráfaga. Esto lo consigue analizando una a una empleando algoritmos de inteligencia artificial para identificar en cuál de todas el animal se encuentra en la posición correcta y está apropiadamente enfocado por la lente.

Ejemplo de elección de mejor foto con un perro y la IA de Qualcomm

Ejemplo de elección de mejor foto con un perro y la IA de Qualcomm Izan González El Androide Libre Maui (Hawái)

En el caso mostrado durante la presentación de esta tecnología, un perro saltaba para intentar atrapar una pelota en el aire. Una vez revisadas de forma autónoma todas las fotos y habiendo seleccionado una entre todas, el siguiente paso es la mejora del pelo de la mascota.

En este paso se puede emplear la inteligencia artificial generativa incorporada en el propio procesador para resaltar los detalles del pelaje, algo complejo debido a la que la instantánea se ha realizado en movimiento y puede perderse una parte importante del detalle.

Borrar a intrusos

Borrar algunos elementos dentro de una fotografía es una capacidad que lleva varias generaciones presente en algunos dispositivos, principalmente apoyados en la nube como la herramienta que integra Google Fotos. Con esta herramienta, el usuario puede eliminar objetos e incluso personas que no quieren que aparezcan en la fotografía final de forma sencilla e intuitiva.

Sin embargo, la eliminación de estos elementos indeseados en los vídeos se había convertido en un trabajo arduo, complejo y muy demandante. Básicamente, el usuario debía ir borrando ese elemento presente en cada uno de los fotogramas capturados y esperar a que realmente haya sido efectivo el tiempo invertido.

Selección de objetos a borrar en el vídeo gracias a la IA de Qualcomm

Selección de objetos a borrar en el vídeo gracias a la IA de Qualcomm Izan González El Androide Libre Maui (Hawái)

Qualcomm, en sus nuevos procesadores Snapdragon 8 Elite, ha incorporado una función que hace todo esto en muy pocos segundos —para vídeos cortos— y de forma automática. Con una herramienta de selección, el usuario tan sólo debe elegir qué elemento desea eliminar de su metraje y pulsar un botón.

Tras un tiempo de procesamiento, el resultado se muestra como un vídeo nuevo con el intruso desaparecido y, en su lugar, una recreación del fondo. Teniendo en cuenta que se trata de una herramienta en desarrollo, los resultados obtenidos durante las pruebas se pueden considerar correctos.

Elementos borrados en el vídeo final

Elementos borrados en el vídeo final Izan González El Androide Libre Maui (Hawái)

La función es efectiva cuando el objeto seleccionado no tiene un papel muy importante dentro del vídeo, como puede ser una farola en uno de los laterales y siempre y cuando el fondo sea uniforme.

En las imágenes adjuntas se puede ver cómo la IA integrada en el dispositivo —e independiente de cualquier conexión a internet— ha borrado las dos antorchas a la derecha. El fondo, en este caso, es un cielo completamente azul, lo que juega a favor de la tecnología que en otros escenarios ha aportado resultados más mediocres.