OpenAI está lanzando un chatbot avanzado de IA con el que puedes hablar. Estará disponible hoy, al menos para algunos. El nuevo chatbot representa el impulso de OpenAI hacia una nueva generación de asistentes de voz impulsados por IA al estilo de Siri y Alexa, pero con muchas más capacidades para habilitar conversaciones más naturales y fluidas.
Es un paso hacia la creación de agentes de IA más completos. El nuevo bot de voz de ChatGPT puede interpretar diferentes tonos de voz, responder a interrupciones y contestar consultas en tiempo real. También ha sido entrenado para sonar más natural y usar voces que transmitan una amplia gama de emociones.
Nuevo Modelo GPT-4o: Voz, Texto y Visión
El modo de voz está impulsado por el nuevo modelo GPT-4o de OpenAI, que combina capacidades de voz, texto y visión. Para recopilar comentarios, la empresa está lanzando inicialmente el chatbot a un "pequeño grupo de usuarios" que pagan por ChatGPT Plus, pero dice que hará que el bot esté disponible para todos los suscriptores de ChatGPT Plus este otoño. Una suscripción a ChatGPT Plus cuesta $20 al mes. OpenAI notificará a los clientes que forman parte de la primera ola de lanzamiento en la aplicación ChatGPT y proporcionará instrucciones sobre cómo usar el nuevo modelo.
Mejora de Características de Seguridad
La nueva función de voz, que se anunció en mayo, se está lanzando un mes más tarde de lo planeado originalmente porque la empresa dijo que necesitaba más tiempo para mejorar las características de seguridad, como la capacidad del modelo para detectar y rechazar contenido no deseado. La compañía también mencionó que estaba preparando su infraestructura para ofrecer respuestas en tiempo real a millones de usuarios.
Pruebas Exhaustivas y Mecanismos de Seguridad
OpenAI dice que ha probado las capacidades de voz del modelo con más de 100 evaluadores externos, quienes tuvieron la tarea de investigar fallas en el modelo. Estos evaluadores hablaban un total de 45 idiomas y representaban a 29 países, según OpenAI. La empresa afirma haber implementado varios mecanismos de seguridad. En un movimiento que busca prevenir el uso del modelo para crear deepfakes de audio, por ejemplo, ha creado cuatro voces predefinidas en colaboración con actores de voz. GPT-4o no imitará ni generará voces de otras personas.
Controversias y Derechos de Autor
Cuando OpenAI presentó por primera vez GPT-4o, la empresa enfrentó una reacción negativa debido al uso de una voz llamada "Sky", que sonaba mucho a la actriz Scarlett Johansson. Johansson declaró que la empresa se había comunicado con ella para pedir permiso para usar su voz para el modelo, lo cual ella rechazó. Dijo que estaba sorprendida de escuchar una voz "extrañamente similar" a la suya en la demostración del modelo. OpenAI ha negado que la voz sea de Johansson, pero ha pausado el uso de Sky
La compañía también está involucrada en varias demandas por presunta infracción de derechos de autor. OpenAI dice que ha adoptado filtros que reconocen y bloquean solicitudes para generar música u otro audio protegido por derechos de autor. OpenAI también menciona que ha aplicado los mismos mecanismos de seguridad que usa en su modelo basado en texto a GPT-4o para evitar que infrinja leyes y genere contenido dañino.
Planes Futuros
En el futuro, OpenAI planea incluir funciones más avanzadas, como video y compartición de pantalla, lo que podría hacer que el asistente sea más útil. En su demostración de mayo, los empleados apuntaron las cámaras de sus teléfonos a un papel y pidieron al modelo de IA que les ayudara a resolver ecuaciones matemáticas. También compartieron sus pantallas de computadora y pidieron al modelo que les ayudara a resolver problemas de codificación. OpenAI dice que estas funciones no estarán disponibles por ahora, pero se implementarán en una fecha posterior no especificada.
Fuente: somoslibres