Stability.AI ha presentado su nuevo modelo de texto a audio de código abierto Stable Audio Open, ideado para generar muestras de audio y llevar a cabo diseño de sonido, con capacidades para generar hasta 47 segundos de muestras y efectos de sonido, como pueden ser ritmos de batería o sonidos ambientales.

La ‘startup’ tecnológica lanzó su primer modelo de texto a audio Stable Audio en septiembre de 2023, con el que los usuarios pueden generar música y efectos de sonido a partir de descripciones de texto. Más tarde, en abril de este año, la compañía anunció la segunda iteración de este modelo con Stable Audio 2.0, ampliando las capacidades de esta herramienta de generación musical con IA para producir pistas completas de alta calidad y de hasta tres minutos de duración. Además, esta segunda versión también permite generar audio a partir de audio.

Ahora, Stability.AI ha presentado su nuevo modelo de texto a audio de código abierto Stable Audio Open, que está diseñado para generar muestras de audio breves, efectos de sonido y elementos de producción mediante indicaciones de texto. Es decir, no se trata de una herramienta para generar canciones o pistas de audio largas, si no sonidos más concretos para utilizarlos en producción musical y diseño de sonido.

Según ha explicado en un comunicado en su web, Stable Audio Open se diferencia de Stable Audio porque este último es capaz de producir pistas completas de audio con una estructura musical coherente de hasta tres minutos de duración, además de tener capacidades avanzadas de composición musical.

Sin embargo, Stable Audio Open, se especializa en la creación de clips musicales cortos, ofreciendo una visión de Inteligencia Artificial (IA) generativa para el diseño de sonido que, a su vez, «prioriza el desarrollo responsable junto con las comunidades creativas».

Tal y como lo define la compañía, se trata de una herramienta con la que los usuarios pueden generar hasta 47 segundos de datos de audio de alta calidad a partir de «un simple mensaje de texto». Con ello, permite generar sonidos como ritmos de batería, riffs de instrumentos, sonidos ambientales u otras muestras de audio.

Además, al tratarse de un modelo de código abierto, los usuarios pueden ajustar el modelo según sus necesidades utilizando sus propios datos de audio personalizados. Es decir, por ejemplo, un baterista podría utilizar muestras de sus propias grabaciones de batería para generar nuevos ritmos.

Igualmente, el nuevo modelo se ha entrenado con datos de audio de FreeSound y Free Music Archive, por lo que se trata de un modelo de audio abierto que «respeta los derechos de los creadores», según ha subrayado Stability.AI.

Con todo ello, la ‘startup’ tecnológica ha señalado que Stable Audio Open está disponible a través de Hugging Face, de manera que los diseñadores de sonido, músicos y desarrolladores ya pueden descargar el modelo para explorar sus capacidades. No obstante, Stability.AI ha señalado que este modelo «todavía es el comienzo de capacidades de generación de audio abiertas y responsables», por lo que continuarán investigando y desarrollando esta tecnología.