El futuro de la IA generativa: David contra Goliat
El mundo de la inteligencia artificial está siendo dominado por pocas compañías en los últimos años, liderando la innovación desde la aparición de los transformers, que han dado paso a los famosos GPT y teniendo al resto de empresas a su merced. Se está generando concentración de riqueza y concentración de poder, porque las barreras de entrada al entrenamiento de estos modelos son muy altas.
Las últimas semanas estamos viviendo un aluvión de noticias entre la salida y posterior vuelta de Sam Altman de OpenAI, la presentación excesivamente grandilocuente y para muchos decepcionante de Gemini por Google y su carrera por recuperar su antigua posición dominante. Tramas políticas y competición por posicionarse los primeros del mercado a toda costa.
A todos nos intriga cuál es el futuro que nos depara la inteligencia artificial generativa, hacia dónde vamos con una tecnología que avanza a una velocidad que nunca habíamos vivido.
Nos preguntamos ¿qué va a pasar en los próximos años? ¿Son los transformers la mejor solución? ¿Cuáles son las amenazas de este dominio de unas pocas empresas? ¿Surgirá una nueva tecnología que supere a los transformers?
El problema al que nos enfrentamos como sociedad hoy, es que la IA Generativa sólo puede estar liderada por unas pocas compañías que concentran el poder. Los modelos que están detrás de GPT4 de OpenAI y Gemini de Google, los conocidos transformers, son excesivamente costosos de entrenar, hasta el punto de que sólo unas pocas compañías cuentan con los suficiente recursos económicos para hacerlo y esto hace que el resto estén a su merced. Los investigadores en las universidades o las startups no tienen los recursos para competir en este escenario. Es decir, las startups y universidades que históricamente han generado las innovaciones que han ayudado a mejorar el mundo, hoy están fuera de juego.
Nos encontramos con varios Goliat (OpenAI, Microsoft, Meta, Amazon, Google) compitiendo y ojalá pronto encontremos varios David que se enfrenten a ellos con éxito. Y en este caso, nos preguntamos cuál es el tirachinas, cuál es el arma que necesitan los David.
Los grandes modelos de lenguaje se basan en entrenamiento por fuerza bruta. Es decir, tienen trillones de datos y billones de parámetros, granjas con miles de GPU y un planteamiento de cuanto más grande mejor. La estrategia para mejorar el modelo es entrenar con más datos, más parámetros y más computación. Sin embargo, como hemos podido ver, estos modelos son increíblemente listos para muchas aplicaciones, pero a la vez sorprendentemente estúpidos para otras, sin hablar de los problemas de sesgos y discriminaciones debidos a los datos con los que están entrenados. Simplificando mucho, es como si hubiésemos entrenado un loro, hablándole constantemente y éste fuese capaz de repetir sin razonar.
La cuestión es si se podrán resolver los errores existentes en los modelos usando esta tecnología, y haciéndolos cada vez más y más grandes. Se duda de si existe suficiente información de calidad para entrenar estos modelos hasta el punto de eliminar los errores que hoy tienen. Otro gran problema son los costes de ponerlos en producción. Por ejemplo, Microsoft reporta grandes pérdidas en GitHub Copilot. También se informa que ChatGPT cuesta 700.000 dólares al día, y los inversores en algún momento necesitarán rentabilidad.
Existe hoy una nueva vía de investigación con otra aproximación al problema, donde los modelos no sean modelos de lenguaje, sino modelos de conocimiento. Es decir, trabajar en que los modelos aprendan a dar sentido al mundo, entender cómo funciona. Así se les podría enseñar normas y valores. Esto sería más parecido a cómo aprendemos las personas.
Serían modelos con menor necesidad de datos de entrenamiento y procesamiento, más optimizados, lo que permitiría entrar a competir a otras empresas. Volviendo a la analogía, serían los tirachinas para competir con los Goliat.
La ventaja que tienen los David es que estas grandes compañías tienen mucha burocracia y la necesidad de seguir ganando mucho dinero. El impacto de ir a otras aproximaciones en etapas incipientes es el coste asociado a tener fallos. Google perdió millones de dólares de capitalización cuando Bard respondió incorrectamente a una pregunta sobre James Webb Space Telescope. El riesgo reputacional pone en riesgo la capacidad de probar cosas nuevas.
Como ha pasado siempre en la historia, ninguna tecnología ha dominado para siempre, y la pregunta es cuándo llegará la siguiente tecnología que sustituya a los Transformers. Modelos con menor coste de computación y huella de carbono, que transformen conocimiento de una forma más eficiente. El sueño es que surjan empresas diferentes gracias a que se democratice el uso de la tecnología.
La gente teme por una IA general que domine el mundo, pero también la IA es la mejor herramienta para hacer un mundo mejor. La inteligencia artificial enerativa, gracias a estas nuevas empresas que surjan, puede ser la herramienta que nos ayude a entendernos mejor entre nosotros de lo que lo hacemos los humanos, que evite tanto conflicto y desacuerdo, en un mundo que cada vez está más polarizado. Una herramienta que nos ayude a reflexionar sobre nosotros y que nos permita comunicarnos mejor, y coexistir juntos pacíficamente. Prefiero pensar que hay muchas personas hoy con responsabilidad preocupadas por un uso ético y sostenible de la tecnología, gente que lidere estas compañías que están por surgir y que finalmente será lo que se imponga en la sociedad.
*** Carmen Vidal es vicepresidenta ejecutiva de GenAiA.