Hace un año, los protagonistas del evento DevDay de OpenAI fueron el lanzamiento de GPT-4 Turbo y de los GPTs personalizados (y su correspondiente 'store'). Estas fueron las novedades que acapararon el interés mediático y la atención del usuario… pero había un 'tapado', una nueva IA que, con el tiempo, ha demostrado que merecía mucha más atención que la recibida en su momento.
Os hablamos de la IA de trascripción de audio a texto Whisper V3, una IA open source (al contrario que ChatGPT o DALL·E), por lo que está disponible para su uso online gratuito a través de plataformas como Hugging Face o Replicate, y de varios clientes de escritorio (como el gratuito Buzz o el cliente de pago WhisperScript).
Un antes y un después
Hasta hace no mucho, la transcripción de audio a texto siempre había sido un desafío para la mayoría de los usuarios, pues las herramientas gratuitas a las que podían disponer acostumbraban a cometer numerosos errores. Whisper V2 fue la primera herramienta gratuita que convenció a muchos usuarios…
…pero con Whisper V3 ya tenemos la sensación de que es el equivalente en su campo a ChatGPT —excepto por la parte de ser 100% gratuito—, una IA que los desarrolladores de software van a empezar a breve a implementar en sus propias aplicaciones.
Además, su versatilidad lo hace ideal tanto para tareas simples de transcripción como para aplicaciones más complejas en el campo de la asistencia por voz.
¿Qué nos ofrece Whisper V3?
Whisper V3 ha sido entrenado con más de un millón de horas de audio etiquetado y más de 4 millones de horas de audio pseudoetiquetado. Si lo comparamos con su versión anterior, Whisper V3 ha logrado reducir los errores entre un 10 y un 20%. En el caso del idioma español, su tasa de error se encuentra por debajo del 5%, lo que lo convierte en uno de los idiomas mejor comprendidos por este modelo.
Una de las características más destacadas de Whisper V3 es su capacidad multitarea: puede utilizarse para reconocer y traducir múltiples idiomas. Además, este modelo es capaz de identificar automáticamente cuando se cambia de un idioma a otro en una misma conversación, lo que lo convierte en una herramienta enormemente versátil.
Además, OpenAI ha puesto a disposición de los usuarios modelos de Whisper V3 de distintos tamaños (y, por ello, de distintos niveles de rendimiento), desde una versión minúscula con menos de 1 GB de VRAM hasta el modelo large, entrenado con 1.550 millones de parámetros y con requisitos de unos 10 GB de VRAM. Esto permite que Whisper V3 se adapte a diferentes aplicaciones y necesidades, brindando flexibilidad a los usuarios.
Fuente: genbeta