No solo ChatGPT: así puedes probar la IA multimodal que Apple está desarrollando por su cuenta para los iPhone
La empresa ha lanzado una demostración de 4M, su IA multimodal que puede trabajar con texto, y hasta imágenes 3D.
2 julio, 2024 10:57En septiembre, cuando Apple presente sus nuevos iPhone 16, una de las principales novedades será la integración de Apple Intelligence en su software. La estrategía de esta empresa para subirse al carro de la inteligencia artificial ha sido motivo de numerosos anuncios y noticias en los últimos meses, más por su acuerdo con OpenAI para ofrecer ChatGPT 4o y otra posible asociación con Google. No obstante, la empresa también está invirtiendo en su desarrollar su propia tecnología con modelo multimodales como 4M que ya se puede probar.
Apple ha lanzado, en colaboración con la Escuela politécnica Federal de Lausana (EPFL), una demostración pública de su modelo de IA 4M (Massively Multimodal Masked Modeling). A través de la plataforma Hugging Face Spaces, los usuarios pueden interactuar con el sistema para crear imágenes a partir de texto, así como poner a prueba la capacidad de esa IA para manipular escenas 3D o detectar objetos en imágenes complejas.
Con este modelo Apple presenta un nuevo esquema de entrenamiento multimodal: "consiste en entrenar un único codificador-decodificador Transformer unificado utilizando un objetivo de modelado enmascarado en una amplia gama de modalidades de entrada/salida", explican en un comunicado. Esta arquitectura unificada le permite trabajar tanto con texto como con imágenes, modalidades geométricas y semánticas, además de con mapas de redes neuronales.
I leveraged Apple's recently launched 4M-21: An Any-to-Any Vision Model to build an image retriever app that can take in a caption & metadata (brightness & number of objects per image) as input.
— Aman Arora (@amaarora) July 1, 2024
There's a lot to share, so let's get started. 📢
BLOG: https://t.co/4579GDWFr5
1/ pic.twitter.com/AtooqL7DVS
Aunque esta explicación sea muy técnica, el lanzamiento implica el avance de Apple hacia su propia inteligencia artificial con la que dotar a Siri de una comprensión más compleja de la que ha tenido hasta ahora y poder responder cuestiones en formato texto o analizar imágenes e información espacial.
Sobre estas líneas se puede ver un ejemplo de cómo lo están poniendo a prueba los primeros usuarios de la plataforma, por ejemplo, creando imágenes a partir de texto. También se aplicaría en otros programas donde la empresa ya está integrando funciones de IA como Final Cut Pro para editar vídeo con simples descripciones de texto.
En lo que respecta al desarrollo de inteligencia artificial, Apple ha dejado a un lado su tradicional postura reservada por la cual evita informar de su trabajo hasta que el dispositivo está listo para salir al mercado o a su comunidad de desarrolladores. En este caso está volcando su tecnología en plataformas de código abierto para impulsar la investigación y fomentar su ecosistema en torno a esta tecnología.
En abril, la compañía de Cupertino lanzó OpenELM, un grupo de cuatro modelos de lenguaje de pequeño tamaño, también a través de la biblioteca de código abierto Hugging Face. Meta también recurre en cierta medida a esa comunidad pública de desarrolladores, pero otros grandes del sector como Microsoft con OpenAI o Google hace tiempo que empezaron a proteger sus avances en un ámbito más privado.
La empresa ha ido dejando pequeñas pistas de lo que supondrá esta revolución para las siguientes generaciones de iPhone. En diciembre, lanzó MLX, un marco de aprendizaje automático que facilita ejecutar modelos de IA en los chips Apple Silicon. Por otro lado, el gigante de Cupertino creó MGIE, un modelo de edición de imágenes que podría editar fotografías. También Ferret-UI serviría para navegar por el sistema operativo del teléfono con la ayuda de la IA.