La batalla por llevar la inteligencia artificial generativa de las musas al teatro, del mundo del consumo al profesional, está que arde. Mientras Microsoft sigue detallando su propuesta de Copilot, con la que enmarca las capacidades de ChatGPT en entornos como Office 365 y su nube, Google hace lo propio con su tecnología Gemini y su oferta de cloud pública.
Durante Google Next 2024, su conferencia para desarrolladores, la multinacional que dirige Thomas Kurian ha presentado no sólo una nueva versión de su motor de IA generativa, Gemini 1.5 Pro, sino también varios avances en los fundamentos de esta tecnología, en la infraestructura que subyace, desde el silicio mismo. Además, con una visión transversal que no se centra únicamente en la capa generativa de la inteligencia artificial, también en las aplicaciones generales que se venían explotando mediante estas capacidades en las últimas décadas.
Comencemos por el hierro. Google ha presentado nuevos silicios personalizados (TPU v5p y Google Axion), así como su primera CPU personalizada basada en ARM para el centro de datos. TPU v5p es su acelerador de IA para el entrenamiento y la inferencia, con cuatro veces más potencia de cómputo por pod en comparación con la generación anterior.
[Google entra en la batalla comercial por la inteligencia artificial con Gemini y su modelo avanzado de pago]
Por su parte, Axion es la primera CPU personalizada basada en ARM diseñada por Google para el centro de datos, que ofrece hasta un 50 % más de rendimiento y hasta un 60 % más de eficiencia energética que las instancias comparables basadas en x86 de la generación actual, según la información facilitada por la firma.
A ello hemos de sumar, siguiendo en esta capa de infraestructura, el desarrollo conjunto con Nvidia de A3 mega, una instancia basada en GPU con el doble de ancho de banda por GPU en comparación con las instancias actuales. Esta propuesta vendrá acompañada, además, de una versión especialmente securizada para esas cargas más exigentes en materia de privacidad.
Vertex AI
Bajo este nombre se esconde la plataforma de inteligencia artificial empresarial de Google, que permite personalizar, aumentar, implementar y administrar modelos de IA. Un total de 130 modelos conforman ya esta propuesta, incluyendo no sólo Gemini, sino también algunos asociados como Claude 3 o algunos abiertos como Gemma, Llama 2 y Mistral.
Sin embargo, Gemini es el corazón de esta plataforma. Y más con la llegada de la nueva versión Gemini 1.5 Pro, que viene con dos tamaños de ventanas de contexto: 128K tokens y 1 millón de tokens. Ya disponible en versión preliminar pública, tiene la capacidad de procesar archivos de audio, incluidos vídeos con audio.
Los clientes pueden procesar grandes cantidades de información en una sola transmisión, incluyendo una hora de vídeo, 11 horas de audio, bases de código con más de 30.000 líneas de código o más de 700.000 palabras, según la compañía.
Para el entrenamiento y la búsqueda de información de estos sistemas, la flexibilidad es clave. En ese sentido, Vertex AI permite ajustar el modelo básico con una variedad de técnicas diferentes que incluyen ajuste fino, aprendizaje por refuerzo con retroalimentación humana (RLHF), destilación, técnicas de ajuste supervisadas basadas en adaptadores, como la adaptación de bajo rango (LORA).
Además, Google ha añadido a la ecuación un generador de agentes de IA, similar a los GPT personalizados de sus rivales de OpenAI y Microsoft. También siguiendo la estela de los de Redmond aparece el creador de código de programación asistido por inteligencia artificial, Gemini Code Assist.
“Estamos orgullosos de compartir que Gemini Code Assist es compatible con su base de código privada para estar en cualquier lugar: en las instalaciones, GitHub, GitLab, Bitbucket o incluso en varias ubicaciones”, explica, de hecho, el propio Thomas Kurian durante su intervención en la conferencia.
Integración en Google Workspace
Google lleva ya un tiempo integrando la IA en el ámbito de la productividad, dentro de su suite que incluye Gmail o Google Docs. En este mismo espacio es donde la compañía va a introducir herramientas de nueva generación como Google Vids (nueva aplicación de creación de videos impulsada por IA, capaz de generar un guion gráfico que se puede editar fácilmente y armar diferentes escenas sugeridas de vídeos de archivo, imágenes y música de fondo).
Esto es quizás el avance más visual, pero hay mucho más tras el telón. Por ejemplo, el complemento de reuniones y mensajería con IA, capaz de hacer resúmenes de chat y la traducción en tiempo real en 69 idiomas (equivalente a 4.600 pares de idiomas) o un nuevo complemento de seguridad de IA para clasificar y proteger automáticamente los archivos y datos confidenciales mediante modelos de IA que preservan la privacidad y controles de prevención de pérdida de datos.