A lo largo de los años he usado Cortana y Siri en mi ordenador (esta última, como Google Assistant o Alexa, en otros dispositivos) de forma testimonial con toda la razón del mundo: el potencial era enorme, pero en la práctica era desesperante simplemente porque te entendía poco, contextualizaba pero y la respuesta rara vez te satisfacía salvo alguna que otra excepción. Pero con el modo avanzado de voz de ChatGPT es otra historia.
Qué tiene el modo de voz avanzado de ChatGPT
Un poquito de contexto. Si usas ChatGPT con frecuencia como servidora, tener la aplicación en los dispositivos es una buena idea. Mi ecosistema de trabajo es Apple y aquí la app de escritorio para macOS llevaba tiempo disponible, si bien recientemente acaba de lanzarse para Windows 10 y Windows 11. Asimismo, también puede bajarse para iOS en App Store y para Android en Google Play Store. Entre las funciones disponibles, además de un utilísimo atajo de teclado está el modo de voz avanzado.
La pregunta del millón si usas ChatGPT gratis: ¿puedo usar el modo de voz avanzado sin pasar por caja? Sí, todo el mundo puede usarlo en la app de escritorio gratis pero de forma limitada. Una vez superado el límite, pasa el modo de voz estándar. ¿Cómo diferenciar entre uno y otro? Con el modo de voz avanzado activado verás un círculo con una especie de nube azul, cuando no sea así, pasara a ser negro (es el modo normal).
++++++++++
La diferencia del modo de voz avanzado de ChatGPT frente al estándar o incluso el nuevo Gemini Live es esa conversación oral nativa tan fluida, como pudimos ver en la presentación de GPT-4o (lo que opera debajo). Ya que en lugar de pasar lo que le decimos de viva voz a texto, analizarlo y después responder oralmente, simplemente escucha, entiende y responde teniendo en cuenta hasta tu tono de voz o interrupciones y lo hace inmediatamente: no hace falta esperar a que piense (y haga todo lo anteriormente descrito). Vamos, prácticamente como una persona.
Creo que explicarlo no resulta suficiente para entender este matiz de inmediatez y comprensión, porque lo mejor es probarlo. Ahí es donde descubres las diferencias tanto con otros asistentes de voz que hemos usado anteriormente como incluso frente a Gemini Live.
Mi madre, ChatGPT en modo voz avanzado y yo: una conversación a tres bandas
Después de asegurarme de que tenía la última versión de la app de ChatGPT instalada y tras iniciar sesión, pensé en qué le podía preguntar y me fijé en que tenía la radio encendida reproduciendo un hit de hacer un par de veranos. Me acerqué y toqué sobre el botón redondo negro con unas líneas en vertical: el micrófono se había activado, había aparecido esa bola con una nube en su interior.
Nota: aunque en los pantallazos se ven mensajes cortados, ChatGPT dice las frases completas.
Le pregunté por qué canción estaba sonando y me llevé un chasco: no puede identificar canciones o música. Sería la única decepción de toda la sesión. Eso sí, respondió rápidamente.
Después fui a algo más estándar que vi en la demo: pedirle que me traduzca al momento todo lo que estoy diciendo a otro idioma. Primero probé en inglés y después en euskera con resultados adecuados aunque dispares.
En ambas pruebas responde inmediatamente, pero mientras que en el primer caso tanto el acento como el contenido era bueno (como podía esperarse por otro lado, es el idioma en el que se ha creado), en euskera pronunció bien pero con un acento bastante neutro y el número lo dijo en castellano. Asimismo, la estructura no era la más natural y lógica. No le queda euskera para septiembre, pero aprueba raspado.
Pero lo que más me sorprendió es que no tuve que deshacer la primera orden para ejecutar la segunda: el propio ChatGPT entendió que ya no quería traducir más en un idioma y la nueva orden. De nuevo, un entendimiento cercano al de una persona.
Añadí una nueva variable a la ecuación: mi madre. Nos presentamos las dos a ChatGPT y tras un par de frases de intercambio, ricé el rizó con las traducciones: solo traduciría al inglés lo que dijera mi madre.
Ya sabía que era capaz de traducir, pero ahora además tendrá que identificar voces y actuar en consecuencia. Funciona a las mil maravillas: capta las voces diferentes y solo traduce la de mi madre y no solo eso, desde ese momento se dirige a cada una de nosotras con nuestro nombre.
Fuente: gizmodo