Apple no quiere quedarse atrás ante la explosión que ha generado la inteligencia artificial con sus rivales como Google, Meta o Microsoft y OpenAI a la cabeza en desarrollo y aplicación. Los próximos años se presentan interesante con la venta de las Vision Pro, su primeras gafas de realidad virtual y la posible revitalización de Siri y sus apps con la inteligencia artificial. Para ello, la empresa está dando pasos en el desarrollo de tecnologías con las que llevar los grandes modelos de lenguaje en los que se basan los chatbots como ChatGPT a sus iPhone o generar avatares en 3D partiendo de vídeo simples.
Se sabe que Apple ha invertido 1.000 millones de dólares al año en su propia IA para aplicar en Siri, apps y nuevos dispositivos. El camino es largo, pero ya se han conocido los primeros pasos. A principios de mes lanzaba un nuevo marco, MLX, de código abierto para que otros desarrolladores elaboren modelos de inteligencia artificial en los procesadores Apple M3.
Dos nuevos estudios de investigación y desarrollo reflejan también ese esfuerzo. El primero detalla una nueva técnica para ejecutar grandes modelos de lenguaje en equipos con menor capacidad computacional y de memoria como son los iPhone o los iPad. Hay que recordar que también Intel y otros fabricantes de chips están presentando nuevos procesadores con IA para los ordenadores de 2024. En segundo lugar, han dado a conocer un método para generar avatares en 3D partiendo de vídeos cortos que podría servir de base para las realidad aumentada de las Vision Pro.
LLM en el iPhone
En el informe presentado, Apple explica que ha desarrollado una nueva forma de ejecutar grandes modelos de lenguaje (LLM) en dispositivos con memoria DRAM como son los iPhone, iPad y ordenadores. Estos modelos de inteligencia artificial generativa se suelen ejecutar en grandes servidores, por lo que su adaptación a dispositivos que usa la gran mayoría de la población sería un gran adelanto para compañías como Apple.
El artículo se ha titulado como "LLM in a flash: Efficient Large Language Model Inference with Limited Memory" y asegura haber solucionado dos barreras de la tecnología actual. Para empezar, reduce el volumen de datos transferidos desde la memoria flash. En lugar de cargar datos nuevos cada vez, el LLM reutiliza algunos de los datos ya procesados, ahorrando tiempo y energía.
Después, han ideado una forma para poder leer fragmentos más grandes de datos. En vez de leer palabra por palabra, el LLM lee grandes cantidades de datos simultáneamente, mejorando su eficiencia y rendimiento. Con esta técnica se puede ejecutar el LLM hasta el doble del tamaño de la RAM disponible, con una aceleración de 4 a 5 veces en las CPU y de 20 a 25 veces en las GPU.
Explican los ingenieros de la compañía que han puesto a prueba su técnica con el modelo LLM Falcon 7B, una versión reducida de un gran modelo de código abierto lanzado por el Instituto de Innovación Tecnológica de Abu Dhabi.
Imágenes 3D
Apple no se limita aquí, en otro artículo, investigadores de la empresa han presentado un nuevo método llamado HUGS (Human Gaussian Splats) con la intención de generar avatares animados en 3D a partir de vídeos monoculares cortos. Según explica Muhammed Kocabas, principal autor, HUGS puede aprender automáticamente a desenredar la escena estática y animar un vídeo monocular con sólo 50-100 fotogramas.
Según detallan, HUGS es hasta 100 veces más rápido en entrenamiento y renderizado, superando técnicas de última generación en la reconstrucción 3D. Los investigadores aportan muestras fotorrealistas después de sólo 30 minutos de optimización en una GPU de juegos típica.
Esta tecnología aún es una propuesta de laboratorio, pero de evolucionar, es posible que sirva para generar contenido en 3D. Una de las cualidades que más llamó la atención de las Vision Pro en su presentación fue la posibilidad de crear recuerdos inmersivos a partir de grabaciones con el iPhone.