OpenAI afirma que ChatGPT ya puede 'hablar', escuchar y procesar imágenes

Detalles: Escrito por: : La Redacción; Categoría: Software; Publicado: 03 Octubre 2023; Visitas: 454

inteligencia artificial

El ChatGPT de OpenAI ya puede "ver, oír y hablar" o, al menos, entender palabras habladas, responder con una voz sintética y procesar imágenes, según anunció la empresa el lunes.

El ChatGPT de OpenAI ahora puede "ver, oír y hablar", según la empresa. La actualización del chatbot llegará a los usuarios de pago en las próximas dos semanas, según OpenAI.

La gran novedad de OpenAI se produce al mismo tiempo que la carrera armamentística por la inteligencia artificial entre los líderes del chatbot, como OpenAI, Microsoft, Google y Anthropic. Lo anuncio la misma empresa OpenAI.

La actualización del chatbot -la mayor de OpenAI desde la introducción de GPT-4- permite a los usuarios participar en conversaciones de voz en la aplicación móvil de ChatGPT y elegir entre cinco voces sintéticas diferentes para que el bot responda. Los usuarios también podrán compartir imágenes con ChatGPT y resaltar áreas de interés o análisis (por ejemplo: "¿Qué tipo de nubes son estas?").

Los cambios llegarán a los usuarios de pago en las próximas dos semanas, según OpenAI. Mientras que las funciones de voz se limitarán a las aplicaciones para iOS y Android, las de procesamiento de imágenes estarán disponibles en todas las plataformas.

El gran impulso a las funciones se produce al mismo tiempo que la carrera armamentística por la inteligencia artificial entre los líderes del chatbot, como OpenAI, Microsoft
Google y Anthropic.

En un esfuerzo por animar a los consumidores a adoptar la IA generativa en su vida cotidiana, los gigantes tecnológicos se apresuran a lanzar no sólo nuevas aplicaciones de chatbot, sino también nuevas funciones, especialmente este verano. Google ha anunciado una serie de actualizaciones de su chatbot Bard, y Microsoft ha añadido la búsqueda visual a Bing.

A principios de este año, la ampliación de la inversión de Microsoft en OpenAI -10.000 millones de dólares más- la convirtió en la mayor inversión en IA del año, según PitchBook. En abril, la startup cerró una venta de acciones por valor de 300 millones de dólares, con una valoración de entre 27.000 y 29.000 millones de dólares, con inversiones de firmas como Sequoia Capital y Andreessen Horowitz.

Los expertos han expresado su preocupación por las voces sintéticas generadas por IA, que en este caso podrían permitir a los usuarios una experiencia más natural, pero también deepfakes más convincentes. Ciberamenazas e investigadores ya han empezado a explorar cómo pueden utilizarse las deepfakes para penetrar en los sistemas de ciberseguridad.

OpenAI reconoció esas preocupaciones en su anuncio del lunes, diciendo que las voces sintéticas fueron "creadas con actores de voz con los que hemos trabajado directamente", en lugar de ser recogidas de extraños.

El comunicado tampoco ofrecía mucha información sobre cómo utilizaría OpenAI la voz de los consumidores o cómo protegería la empresa esos datos en caso de utilizarlos. Las condiciones de servicio de la empresa dicen que los consumidores son propietarios de sus aportaciones "en la medida en que lo permita la legislación aplicable".

OpenAI remitió a CNBC a la guía de la compañía sobre interacciones de voz, que afirma que OpenAI no retiene clips de audio y que los clips de audio en sí no se utilizan para mejorar los modelos.

Pero la compañía también señala allí que las transcripciones se consideran entradas y se pueden utilizar para mejorar los modelos de gran lenguaje.

Fuente: somoslibres