Google anuncia la era Gemini: su IA busca en Fotos, hace planes en la búsqueda o responde a consultas en vídeo

Sundar Pichai ha tomado el Google I/O 2024 para mostrar los avances de la IA y todas las experiencias que serán desplegadas en los próximos meses.

14 mayo, 2024 20:18

Manuel Ramírez

Ayer fue un día muy especial por el gran avance en la inteligencia artificial de OpenAI con ChatGPT y así convertirse en un asistente que expresa emociones y responde en tiempo real sin retrasos. Sundar Pichai ha dado las claves en el Google I/O para mostrar todos los avances de lo que ha denominado como la era Gemini.

Con 6.000 millones de fotos subidas diariamente, con Gemini se va a hacer más fácil la experiencia de Google Fotos. Antes se podía buscar con palabras clave, ahora con Gemini se puede preguntar a Fotos para que aparezcan de forma inmediata las capturas deseadas en la app.

Se puede preguntar por recuerdos con una persona en concreto y Fotos las muestre directamente al igual que ciertas acciones como nadar de cualquiera de las personas que aparezcan en las miles de fotos que puede tener un usuario. 'Ask Photos' será desplegado este próximo verano con Gemini.

Google I/O 2024 El Androide Libre

Gemini como una inteligencia artificial multimodal es capaz de entender texto, imágenes o audio con en su versión 1.5 Pro. Google muestra un ejemplo de su IA y como ayuda a la programación para hacer búsquedas precisas de documentos completos.

Otro de sus mejores ejemplos es cuando el usuario sube una fotografía hecha de la librería con todos sus libros en fila para que Gemini 1.5 sea capaz de hacer una lista con todos en segundos. Un uso personal y diario a un gran abanico de experiencias comunes para miles de personas en sus casas y lugares de trabajo.

Gemini 1.5 Pro

Gemini 1.5 Pro está disponible desde hoy para todos los desarrolladores de forma global. Gemini Advanced, disponible en 35 idiomas, pasa de un millón de tokens a los dos millones desde hoy mismo.

En Workspace la app Gmail se va a hacer más importante gracias a Gemini para que se haga un resumen de todos los correos de un remitente, o se pueda crear una lista con todos los puntos destacados de una reunión de Google Meet. Disponible hoy desde Gemini Labs.

Con el modelo multimodal en Notebook LLM se muestra Audio Overviews con respuestas a las preguntas del usuario en una especie de clase interactiva dirigida a los más peques o estudiantes en el caso mostrado en el Google I/O 2024. Google pone el acento en una clase de ciencias, para que el usuario cuando pregunte por un tema bien distinto sobre baloncesto, Gemini 1.5 sea capaz de adaptarse para responder adecuadamente.

AI Agents es otra de las novedades de la inteligencia artificial de Google enfocada en el razonamiento, planeamiento y memoria para funcionar a través de distintos sistemas y software. En la experiencia de visita se usa AI Agents para los distintos enfoques que necesita el usuario para así proporcionarles los lugares o sitios de interés a visitar.

Google DeepMind entra en juego en la keynote para mostrar otros de los avances de la IA de Google; al igual que la conocida hace días para predecir estructuras moleculares. Gemini 1.5 Flash es un modelo ligero comparado a Pro centrado en la baja latencia y respuestas rápidas y estará disponible en Google AI Studio y Vertex AI para desarrolladores.

Google hace otra demostración, similar a la de ayer que lanzó como respuesta a OpenAI, en la que se puede ver como Gemini va describiendo todo lo que aparece en el visor de la app de cámara. Las respuestas son instantáneas ante cada consulta que hace la persona para demostrar el avance que ha hecho y situarse como una experiencia similar a la que mostró ayer mismo OpenAI con ChatGPT.

We’re sharing Project Astra: our new project focused on building a future AI assistant that can be truly helpful in everyday life. 🤝

Watch it in action, with two parts - each was captured in a single take, in real time. ↓ #GoogleIO pic.twitter.com/x40OOVODdv
— Google DeepMind (@GoogleDeepMind) May 14, 2024

Sí que no ha hecho una demostración en vivo y es un vídeo que ha mostrado en la presentación, pero lo mejor viene cuando ha usado este modelo con las gafas y así pueda usar la voz en todo momento. Una experiencia idéntica a las Ray-Ban de Meta. Y casi se puede decir que una de las más sorprendentes de la keynote de Google.

Imagen 3 es la nueva actualización a la generación de imágenes con inteligencia artificial de Google. Entiende descripciones más extensas y cuantos más detalles se den en el prompt, Imagen 3 será capaz de representar mejores fotos realistas. Se puede participar ya en la beta para poder disfrutar de esta nueva experiencia de Imagen 3.

We’re introducing Imagen 3: our highest quality text-to-image generation model yet. 🎨

It produces visuals with incredible detail, realistic lighting and fewer distracting artifacts.

From quick sketches to very high-res imagery, here’s a look at what it can create. 👀 #GoogleIO pic.twitter.com/XMrQYGeSiO
— Google DeepMind (@GoogleDeepMind) May 14, 2024

Google también ha mejorado la experiencia de generación de contenido de audio con Music AI Sandbox, un conjunto de aplicaciones centradas en la IA. Se crea un sampler y la IA comienza a introducir ritmos y así haga una remezcla con una canción creada basada en el sampler.

En la generación de vídeo generativo llega Veo: crea videos en 1080p desde texto con capturas aéreas, time lapses y con la herramienta VideoFX se pueden crear composiciones extensas. Veo se centra en la consistencia del clip generado, tal como ha mostrado Google en el I/O con un coche que iba atravesando distintos entornos. Su respuesta a Sora de OpenAI.

La búsqueda en la era de Gemini

Otro de los momentos importantes ha sido para la búsqueda con Gemini. Las claves son información en tiempo real, la calidad de sus sistemas con su eficacia y el poder de su inteligencia artificial.

AI Overviews se presenta para responder directamente con la información buscada para ser desplegado hoy mismo y en más países en los siguientes meses. Se introduce el razonamiento de múltiples pasos para dar la respuesta adecuada a la búsqueda de estudios de pilates o yoga en una ciudad como Boston.

Coming soon, we’ll bring new multi-step reasoning capabilities to Google Search. It breaks your bigger question down into parts and figures out which problems to solve and in what order, so research that might've taken you minutes or even hours can be done in seconds. #GoogleIO pic.twitter.com/Op8Iu7K21m
— Google (@Google) May 14, 2024

Google ofrecerá toda la información resumida con una interfaz que muestra los locales centrados en la práctica de Pilates con su mapa. Agents AI se encarga de clasificar la información para proveerla de la mejor forma al usuario de los más de 250 millones de fichas de negocios con los que cuenta en todo el planeta.

And you’ll also be able to ask questions with video, right in Search. Coming soon. #GoogleIO pic.twitter.com/zFVu8yOWI1
— Google (@Google) May 14, 2024

Planear viajes será muy sencillo con la nueva búsqueda basada en Gemini al igual que crear un plan de dieta para tres días, y en los resultados a la consulta ofrezca fotos, recetas y consejos para una nutrición equilibrada en la que no falte ningún tipo de alimento.

Hacer una consulta con vídeo es otra de las grandes novedades de Google para mostrar los avances de Gemini y la búsqueda con inteligencia artificial generativa: toma la cámara del móvil para grabar un vídeo del problema que tiene con su tocadiscos y la aguja. Hace la consulta en vídeo y Google da la solución de forma directa en segundos.

Se desplegará esta nueva búsqueda en las próximas semanas para producirse un gran cambio en la experiencia diaria de millones de personas que utilizan Google Search.