He probado el modo de voz avanzado de ChatGPT: así desafía al de Google, como si hablaras con un amigo
- Después de probar Gemini Live, he tenido oportunidad de 'charlar' con ChatGPT en español y su recién estrenado modo de voz avanzado.
- Más información: ChatGPT se actualiza a lo grande con una nueva IA que 'razona': así son o1-preview y mini, disponibles ya en España.
Justo hace dos semanas OpenAI anunció el estreno del modo de voz avanzado de ChatGPT para España, pero hasta hace unos días no había aparecido para los usuarios que usan su IA de forma gratuita. En EL ESPAÑOL - El Androide Libre hemos tenido la ocasión de 'charlar' con ChatGPT, que dejó estupefacto a medio mundo cuando fue presentado por primera vez en el mes de mayo.
Y si hace un par de días ya está activo el modo de voz avanzado de ChatGPT, lo mismo ha sucedido con Gemini Live que ya está operativo también en España. Dos experiencias que llegan al unísono para atraer la atención de miles de usuarios que van a tener la posibilidad de mantener una conversación con la IA de OpenAI o la de Google.
Si un amigo me preguntase por diferencia que hay entre ambos, al menos a día de hoy, entre el modo avanzado de voz de ChatGPT y Gemini Live, se podría resumir perfectamente en esta frase: con el primero es como tener una charla distendida con un 'colega' y el segundo sería como hacerlo con un familiar que no fuese alguno de mis padres.
Y aquí está la gran diferencia actualmente entre ambos, al menos es la sensación que da ChatGPT que tiene guiños muy de ser ese 'amigo de toda la vida' con el que ya hay un vínculo emocional labrado, para así alejarse de Gemini Live, que parece más bien esa persona correcta con la que se entabla conversación, pero a la que le cuesta más sacar una sonrisa o dejarse llevar por la charla.
En términos de desarrollo, y que podría dar la sensación de que no hay mucha diferencia, sí que la hay, ya que lograr una charla con la IA que dé la sensación de estar frente a una natural con sus giros o contextos, abre la puerta a que el usuario se 'suelte' al encontrarse más tranquilo. Para explicarlo mejor: es como con ese amigo con el que uno puede compartir sus sentimientos más profundos o hablar de cualquier tema sin prejuicios.
Y en la práctica es una diferencia abismal, ya que la conversación con ChatGPT se puede alargar al sentirse uno tranquilo y distendido, aunque ahora sí que entraríamos en una de sus limitaciones: el tiempo de charla. Si no se paga por el modelo de suscripción, solo son 15 minutos por mes (¡sí!), y pagando por Plus entre los 45 minutos y la hora por día.
En las voces que se pueden elegir, ChatGPT en su modo avanzado llega a las 9, mientras que Gemini Live alcanza las 10, aunque hay un matiz importante, ya que mientras las voces de Gemini Live son de actores/actrices españolas, las de la IA de OpenAI son una mezcla de distintas voces latinas/españolas.
'Charlando' con ChatGPT
Para entablar conversación he elegido a Maple, una voz inteligente y relajada, que es la más aproximada a las voces de Gemini Live. Hay disponibles todas estas: Vale (brillante e inquisitiva), Sol (inteligente y relajada), Ember (segura y optimista), Arbor (desenfadada y versátil), Breeze (animada y seria), Juniper (abierta y alegre), Spruce (tranquila y afirmativa), Cove (compuesta y directa) y Maple (alegre y sincera).
En los 15 minutos que he estado probando el modo de voz sí que es cierto que a veces se 'ralentiza' algo como si le costase decir las palabras. Ha sucedido en dos ocasiones y es como que va lento, a lo que se podría denominar como el 'lag' de los juegos; si es que se convierte en algo normal debido a la velocidad que opera y lo bien que entabla las conversaciones.
En lo que se refiere a la charla en sí misma, se puede cortar a la IA en todo momento, e incluso es capaz de seguir el hilo coloquial si ya conocemos las dos recomendaciones de música rock indie que nos ha dado, para 'responderla' con un "oh, ya los conozco", y conteste de inmediato con un "ah, pues espera que te recomiendo otros dos temas más que te gustarán".
El poder cortarla y pasar a un tema u otro sin que pierda el hilo y en ningún momento se repita (algo que sí hace Gemini Live) genera la sensación de que las conversaciones puedan ser más 'complejas' o entretenidas, casi como si se pudiera discutir, aunque para esta experiencia habrá que esperar.
Eso sí, de momento hay que olvidarse de la actualidad informativa con el modo de voz avanzado de ChatGPT, a diferencia de Gemini Live que sí permite entablar una conversación para recibir resúmenes de las últimas noticias o se pueda entrar en mayor profundidad y con todo detalle sobre un tópico.
Hay otro detalle interesante de ChatGPT, y es que permite tener las sesiones de voz en segundo plano con la pantalla apagada o cuando la app esté cerrada, lo que permite seguir charlando con la IA de OpenAI sin ningún tipo de interrupción. Gemini Live de momento no ofrece esta opción, así que hay otro detalle a tener en cuenta.
Uno de sus aspectos más importantes es la memoria, también presente en el chatbot, que le permite a la IA recordar todo lo mencionado en las conversaciones al igual que se ordena actualizarla. De todas formas, aparecerá una notificación cuando se actualiza la memoria con algún asunto importante.
La transcripción también está disponible, así que se puede echar un vistazo rápido por algún consejo o cualquier cosa dicha por ChatGPT. De hecho, incluso se pueden acceder a las grabaciones de voz.
La IA que se emociona
Podría decirse que estamos en los inicios de lo que sería elegir un modo de voz avanzado con una IA u otra según la propia necesidad del usuario. El 'amigo de toda la vida' es ChatGPT, y el 'familiar' que nos puede informar de la actualidad es Gemini Live. Las carencias de cada uno serán suplidas próximamente, como las de la IA de OpenAI cuando actualice sus voces con la de actores españoles o que pueda dar información de actualidad con la voz.
Lo que queda bien claro es que si se quiere tener una charla distendida como si se hiciese con un amigo, ChatGPT lleva las de ganar totalmente con una interacción más natural y con una experiencia más compleja al poder cortar su discurso y así seguir preguntando otra cosa. Eso sí, hay que pagar para poder disfrutar de 45 - 60 minutos por día, mientras que el modo de voz de Gemini Live, de momento, no tiene limitaciones.