La magia del algoritmo ‘artista’: DALL-E 2 te permite crear imágenes a partir de cualquier texto
Las herramientas de Inteligencia Artificial que convierten texto en imágenes se perfeccionan y empiezan a permitir el acceso limitado a cualquier usuario.
11 junio, 2022 01:51Noticias relacionadas
La inteligencia artificial demostró hace tiempo ser muy buena resolviendo tareas repetitivas y cálculos o jugando al ajedrez, pero la creatividad parecía ser un reducto exclusivo de los seres humanos, hasta ahora. La magia del último algoritmo de Google o DALL-E, inspirado en el pintor surrealista más famoso de España, han roto todas las expectativas generando imágenes inauditas a partir de frases cada vez más complejas.
Al ver estas escenas e ilustraciones, pocos tendrán la opción de decir, "yo lo puedo hacer mejor". Del realismo al pop-art, DALL-E 2 se defiende en la mayoría de movimientos pictóricos: puede cambiar elementos de una fotografía y versionar cualquier obra todas las veces que haga falta, incluso está creando su propio vocabulario. Son algunas de las habilidades que ha adquirido en solo un año, en el que su calidad ha dado un salto de gigante.
Sus creaciones sorprenden en redes sociales, gracias a unos pocos afortunados que pueden jugar con él. La era de las IA artísticas ya ha comenzado, mientras personas de todo el mundo experimentan con modelos más sencillos y públicos, como Dall E Mini, que está arrasando en redes. Un entretenimiento que augura nuevas herramientas de edición y tratamiento de imagen, para lo bueno y lo malo.
De gatear a correr
Un astronauta montando a caballo en el espacio, en Marte o en la Luna; Open-AI ha sorprendido al mundo con la segunda generación de esta inteligencia artificial. La organización sin ánimo de lucro es responsable de los modelos de IA más interesantes de los últimos años. Primero está GPT-3, un modelo de lenguaje natural que puede escribir artículos periodísticos o informes jurídicos.
Después están DALL-E y Codex, ambos usan ese aprendizaje del lenguaje y los aplican para crear arte o para programar, respectivamente. Si estas imágenes no son suficientes para sorprender al más incrédulo, solo hay que echar la vista atrás, a principios de 2021, para comprender el estirón que ha pegado este 'artista' digital.
DALL-E nació jugando con la iconografía de los aguacates, imaginando sillas psicodélicas y ofreciendo resultados que ya eran un avance importante: crear ilustraciones y fotografías que no son tan fáciles de replicar. Las obras que consigue el nuevo modelo son de 1024 x 1024 píxeles, cuando hace un año había que conformarse con una resolución de solo 256 x 256 píxeles.
DALL-E comenzó entrenándose con 12.000 millones de parámetros de GPT-3. Ahora DALL-E 2 se basa en CLIP, un sistema de visión por ordenador. Construye la imagen a partir de un proceso llamado "difusión", que comienza con un patrón de puntos aleatorios y altera gradualmente ese patrón hacia una imagen cuando reconoce aspectos específicos de esa imagen.
A través del aprendizaje profundo, DALL-E 2 puede identificar objetos individuales y comprender las relaciones entre ellos. Por eso, puede unir en la misma imagen a un astronauta y un caballo o dibujar osos como si fueran científicos.
No solo han mejorado en calidad y resolución, sino que en este poco tiempo ha aprendido a jugar con las obras de los demás. DALL-E 2 puede modificar fotografías. Javier López muestra en Twitter cómo se consigue sustituir un perro por un gato sin que se altere el entorno. La clásica broma en redes sociales de "¿alguien que me quite a la persona de detrás en esta foto?" se volverá más salvaje todavía.
Y por si esto fuera poco, controlar desde el realismo hasta el pop-art pudiendo versionar una misma obra en múltiples estilos. Imagina ir por la calle y encontrar un grafiti que te gusta, pero no te encanta: hazle una foto y pídele a DALL-E que lo versione, así conseguirás un nuevo fondo de pantalla único.
Rarezas de DALL-E
Evidentemente, no se trata de un artista de la talla de Velázquez o Dalí (por mucho que lleve su nombre y un guiño al robot de Pixar Wall-e). Esta inteligencia artificial cuenta con limitaciones y quienes ya lo han podido probar han visto como al acabado le falta el detalle que un ilustrador profesional le daría.
I tried using DALL-E to recreate one of my own digital illustrations by inputting a verbal description of it. Left is my original, painted in Photoshop with a Wacom tablet. Right is the generated one. I actually think I like it more, esp. colors! But it does worse on fine details pic.twitter.com/JvbxDwCn9Z
— shady qualia woman (@carmenleelau) April 8, 2022
Tampoco es un experto en el lenguaje ni admite descripciones muy complejas o largas. Una frase sencilla y descriptiva con palabras básicas parece ser la mejor forma de comunicarse con él. Además, en ningún momento este y otros generadores entiende lo que está haciendo, ya que no cuentan con la comprensión lectora de los humanos, solo replican en base a millones de ejemplos que han recibido. Por eso dan dos respuestas diferentes, válidas o incorrectas.
Entre sus fallos surgen algunas peculiaridades, rarezas que con el método prueba y error han ido revelándose para dejar perplejos a muchos. Porque, ¿quién podría imaginarse que entre cuadro y cuadro, DALL-E fuera a crear su propio diccionario? Por ejemplo, para Dall-E 2 "Apoploe vesrreaitais" significa pájaros.
DALLE-2 has a secret language.
— Giannis Daras (@giannis_daras) May 31, 2022
"Apoploe vesrreaitais" means birds.
"Contarra ccetnxniams luryca tanniounons" means bugs or pests.
The prompt: "Apoploe vesrreaitais eating Contarra ccetnxniams luryca tanniounons" gives images of birds eating bugs.
A thread (1/n)🧵 pic.twitter.com/VzWfsCFnZo
El modelo genera palabras 'inventadas' dentro de las imágenes, según lo que el usuario le pide. Si esas mismas palabras se vuelven a usar como input, la IA refleja el significado que le había dado y así acaba creando todo un vocabulario propio en el que "vicootes" significa recetas con verduras.
Contrincante o aliado
Como ocurre con los otros modelos de inteligencia artificial que han surgido en estos años, los profesionales de este campo miran con recelo las capacidades de esta tecnología. Aún no es perfecta, y por eso, los investigadores mandan un mensaje de calma, asegurando que debe servir más de apoyo que de sustituto.
Ver esta publicación en Instagram
Puede que algún día se lean cómics escritos e ilustrados por modelos artificiales como los de OpenAI pero, de momento, su primera parada en el camino sería la integración con programas de edición y aplicaciones en los teléfonos para retocar cualquier foto con más facilidad.
Mientras unos la usarán para obtener ilustraciones gratis y rápidas a falta de poder elaborarlas por su cuenta o de presupuesto para pagar a un ilustrador, estos darán un uso distinto de esta herramienta digital. Al igual que ocurre con Codex para programar, DALL-E 2 podría hacer el trabajo base, acelerar el proceso de producción y dejar que los profesionales perfeccionen la obra, puliendo los detalles o guiando a la IA hacia un estilo más auténtico.
Pública o protegida
Esas aplicaciones, no obstante, tardarán algo en llegar. De hecho, el modelo completo de DALL-E nunca se ha hecho público. Open-AI suele compartir ejemplos de lo que es capaz de hacer y poco a poco da acceso a algunos desarrolladores para que pongan a prueba sus algoritmos, ya sean para dibujar, programar o redactar.
El control sobre su tecnología responde, en gran parte, a un intento de evitar abusos por parte de los usuarios. Elegir una ilustración o la obra de otra persona y transformarla según tus gustos, pasando por encima de los derechos de autor, sería una posibilidad. Además, con una herramienta como esta crear fake news puede ser mucho más sencillo. Para combatir este uso, han integrado una marca de agua que indica la propiedad del trabajo, aunque se puede recortar.
Los usuarios tienen prohibido generar imágenes que "no tengan clasificación G" y "puedan causar daño", como símbolos de odio, desnudez, gestos obscenos o "grandes conspiraciones o eventos relacionados con importantes eventos geopolíticos en curso". Tampoco se pueden generar caras reconocibles basadas en un nombre.
Tras varios filtros en los que se controla el uso de esta tecnología en busca de contenido violento o político, por ejemplo, palabras como sangre harían saltar las alarmas. Claro, que esta clase de censura no supone una barrera fuerte frente a eufemismos como "mancha roja". El último check point implica que cada imagen generada sea revisada por una persona, pero este proceso no se sostiene si se da acceso al público general.
Tampoco se puede considerar como un producto acabado para poder lanzarlo sin problemas al mercado. Las diferentes inteligencias artificiales han demostrado en más de una ocasión heredar los prejuicios y sesgos de lo aprendido de los humanos. DALL-E y otras IA se encuentran más en una fase de aprendizaje, en la que necesitan supervisión y corrección para mejorar, pero jugando también se aprende.
Mientras, las ganas de entretenimiento del público se sacian con modelos más pequeños como DALL-E mini, aunque su precisión sea muy cuestionable en comparación con el original. Basta con entrar en su directorio de GitHub, escribir una frase en inglés y echarse unas risas con el resultado. Funciona lento y da muchos errores, pero es un acercamiento gratuito a esta innovación que muchas aplicaciones están tratando de replicar antes de que se convierta en una herramienta del día a día.