Cada vez vemos cómo la inteligencia artificial va adquiriendo más aplicaciones en distintos sectores. Si bien fue ChatGPT la herramienta que popularizo a las IAs generativas, ahora contamos con un buen número de alternativas. Todo indica a que esto solamente acaba de comenzar, y las grandes tecnológicas ya luchan por ganar esta batalla con sus múltiples herramientas basadas en IA.
Hace unos días pudimos ver cómo avanzaba el proyecto de Google para generar música a través de un prompt. Ahora conocemos que Meta también se ha embarcado en esta aventura mediante la creación de modelos de lenguaje capaces de generar audio a través de una descripción en texto. Lo llaman ‘AudioCraft’.
Una herramienta que ya puedes probar
AudioCraft es una herramienta basada en IA que depende de tres modelos de lenguaje: AudioGen, EnCodec y MusicGen. La idea es que podamos obtener pistas de audio por medio de tan solo una descripción en texto de lo que queremos escuchar. La herramienta funciona tanto para música como para sonidos, compresión y generación.
De los tres modelos, MusicGen es el que ha sido entrenado específicamente para generar música a partir de texto. Para ello han utilizado miles de temas musicales licenciados por Meta.
Lo mejor de todo es que los tres modelos se han lanzado mediante libre distribución, por lo que cualquiera puede utilizar estos modelos para crear herramientas y aplicaciones que lo requieran. Según la compañía, los modelos han sido diseñados específicamente para artistas musicales y diseñadores de sonido para «proporcionar inspiración».
Los modelos ya han sido lanzados y su código puede ser descargado a través de Hugging Face o su respectiva página de Github. Si bien MusicGen nos servirá para obtener fragmentos de algún tema musical generado por IA, AudioGen nos proporcionará sonidos que podemos utilizar para producir música, mientras que EnCodec es una herramienta de compresión basada en IA.
Cualquiera puede probar además una demo de estos modelos a través de Hugging Face. Si quieres generar un tema musical, lo único que tienes que hacer es describir la música que deseas obtener y presionar sobre el botón de ‘Generate’. De manera opcional también puedes acompañar tu descripción con un archivo de audio o una grabación de tu micrófono para que el modelo pueda procesar con mayor exactitud qué tipo de música quieres generar.
El audio que obtengamos será una pista de unos 12 segundos de duración. Para obtener una herramienta capaz de generar fragmentos más completos tendremos que esperar a que algún desarrollador se preste a crear una app con estos modelos como base. Meta ha lanzado las herramientas, ahora es turno de la comunidad para conocer lo que se puede llegar a hacer con ellas.