Tendencias

OpenAI lanza la API de Whisper para traducción y transcripción de voz a texto

Lo que distingue a Whisper de otras tecnologías es que se entrenó con una gran cantidad de datos multilingües y de "multitarea" recopilados de la web, que suman un total de 680,000 horas.
Por Eduardo Sotomayor
2 minutos
OpenAI traducción y transcripción de voz

Para coincidir con el lanzamiento de la API de ChatGPT, OpenAI lanzó este 1 de marzo, la API de Whisper, una versión alojada del modelo de reconocimiento de voz Whisper de código abierto que la compañía lanzó en septiembre.

Con un precio de $0.006 por minuto, Whisper es un sistema de reconocimiento automático de voz. OpenAI afirma que permite una transcripción «robusta» en varios idiomas, así como la traducción de esos idiomas al inglés. Acepta archivos en una variedad de formatos, incluyendo M4A, MP3, MP4, MPEG, MPGA, WAV y WEBM.

Incontables organizaciones han desarrollado sistemas de reconocimiento de voz altamente capaces, que son la base de software y servicios de gigantes tecnológicos como Google, Amazon y Meta. Pero lo que hace que Whisper sea diferente es que fue entrenado con 680,000 horas de datos multilingües y «multitarea» recolectados de la web.

¿Por qué no se utiliza Whisper de OpenAI tanto como se debería?

«Publicamos un modelo, pero eso en realidad no fue suficiente para que todo el ecosistema de desarrolladores lo construyera. La API de Whisper es el mismo modelo grande que se puede obtener de código abierto, pero lo hemos optimizado al extremo. Es mucho, mucho más rápido y extremadamente conveniente», dijo Greg Brockman, presidente de OpenAI.

Para Brockman, hay muchas barreras cuando se trata de que las empresas adopten la tecnología de transcripción de voz.

Según una encuesta de Statista de 2020, las empresas citan la precisión, los problemas de reconocimiento relacionados con el acento o el dialecto, y el costo, como las principales razones por las que no han adoptado tecnologías como la conversión de texto en voz.

A pesar de esto, OpenAI ve que las capacidades de transcripción de Whisper se pueden usar para mejorar aplicaciones, servicios, productos y herramientas existentes.

Por ejemplo, la aplicación de aprendizaje de idiomas impulsada por IA, Speak, está utilizando la API de Whisper para impulsar un nuevo compañero virtual de habla dentro de la aplicación. Si la empresa aprovecha correctamente estas ventajas, puede ser una gran ganancia para ellos.