VALL-E puede conservar el tono emocional del hablante original e incluso simular su entorno acústico.
A pesar de lo lejos que han llegado los avances en la generación de videos de IA, todavía se requiere bastante material de origen, como disparos a la cabeza desde varios ángulos o secuencias de video, para que alguien pueda crear una versión falsa convincente de su imagen. Cuando se trata de fingir tu voz, esa es una historia diferente, ya que los investigadores de Microsoft revelaron recientemente una nueva herramienta de inteligencia artificial que puede simular la voz de alguien usando solo una muestra de tres segundos de ellos hablando.
La nueva herramienta, un “modelo de lenguaje de códec neuronal” llamado VALL-E, se basa en la tecnología de compresión de audio EnCodec de Meta, revelada a fines del año pasado, que utiliza IA para comprimir audio con una calidad mejor que la de un CD a velocidades de datos 10 veces más pequeñas que incluso Archivos MP3, sin pérdida apreciable de calidad. Meta visualizó EnCodec como una forma de mejorar la calidad de las llamadas telefónicas en áreas con cobertura celular irregular, o como una forma de reducir las demandas de ancho de banda para los servicios de streaming de música, pero Microsoft está aprovechando la tecnología como una forma de hacer que la síntesis de texto a voz suene realista basado en una muestra de fuente muy limitada.
Los sistemas actuales de texto a voz pueden producir voces que suenan muy realistas, razón por la cual los asistentes inteligentes suenan tan auténticos a pesar de que sus respuestas verbales se generan sobre la marcha. Pero requieren datos de entrenamiento de alta calidad y muy limpios, que generalmente se capturan en un estudio de grabación con equipo profesional. El enfoque de Microsoft hace que VALL-E sea capaz de simular la voz de casi cualquier persona sin que pasen semanas en un estudio. En cambio, la herramienta se entrenó con el conjunto de datos Libri-light de Meta, que contiene 60.000 horas de habla en inglés grabada de más de 7000 hablantes únicos, “extraídos y procesados de los audiolibros de LibriVox”, que son todos de dominio público.
Microsoft ha compartido una extensa colección de muestras generadas por VALL-E para que puedas escuchar tú mismo cuán capaces son sus capacidades de simulación de voz, aunque los resultados actualmente son mixtos. En ocasiones, la herramienta tiene problemas para recrear los acentos, incluidos incluso los sutiles de las muestras originales en las que el hablante suena irlandés, y su capacidad para cambiar la emoción de una frase dada a veces es risible. Pero la mayoría de las veces, las muestras generadas por VALL-E suenan naturales, cálidas y son casi imposibles de distinguir de los altavoces originales en los clips fuente de tres segundos.
En su forma actual, entrenado en Libri-light, VALL-E se limita a simular el habla en inglés y, aunque su rendimiento aún no es perfecto, sin duda mejorará a medida que se amplíe aún más su conjunto de datos de muestra. Sin embargo, dependerá de los investigadores de Microsoft mejorar VALL-E, ya que el equipo no está publicando el código fuente de la herramienta. En un artículo de investigación publicado recientemente que detalla el desarrollo de VALL-E, sus creadores comprenden completamente los riesgos que plantea:
“Dado que VALL-E podría sintetizar el habla que mantiene la identidad del hablante, puede conllevar riesgos potenciales en el uso indebido del modelo, como falsificar la identificación de voz o hacerse pasar por un hablante específico. Para mitigar tales riesgos, es posible construir un modelo de detección para discriminar si un clip de audio fue sintetizado por VALL-E. También pondremos en práctica los Principios de IA de Microsoft cuando sigamos desarrollando los modelos”.