Si bien la inteligencia artificial ha sufrido una evolución muy notable durante los últimos meses a través de multitud de herramientas generativas como ChatGPT, Bing Chat, o Bard, es posible que una de las más útiles de las que contamos hoy día sea también Whisper. Si aún no la conoces, básicamente se trata de una herramienta capaz de transcribir audio a texto con ayuda de la inteligencia artificial. Su eficacia es sorprendente, y desde su lanzamiento han aparecido aplicaciones que utilizan su API para facilitar su instalación, como Buzz.
Sin embargo, OpenAI no es la única en haberse adentrado en este tipo de proyectos. Meta también lleva un tiempo trabajando en su propia herramienta para transcribir de audio a texto y viceversa en 1.100 idiomas. Denominada por su equipo como MMS (Massively Multilingual Speech), garantizan una gran eficacia y con la mitad de errores de palabra que Whisper.
Un modelo capaz de transcribir a texto unos 1.100 idiomas
A través de un artículo publicado en su web oficial han ofrecido toda la información acerca de esta nueva herramienta, la cual tiene la intención de convertirse en una de las más poderosas en cuanto a transcripción de texto y audio. El secreto de su eficacia, al igual que Whisper, es hacer uso de la inteligencia artificial para reconocer audio en unos 1.100 idiomas, según Meta. No obstante, la herramienta tiene el potencial de reconocer unas 4.000 lenguas de todo el mundo.
Para este proyecto han utilizado Wav2vec 2.0, un modelo que aprende de forma autosuficiente a través de datos de entrenamiento no etiquetados. También han utilizado un nuevo dataset que les ha servido para entrenar al modelo para esos 1.100 idiomas. Meta ha utilizado en total unos 1.000 millones de parámetrospara entrenar a su modelo más potente.
Lo curioso de todo es que comenzaron trabajando con textos religiosos como la Biblia, ya que está traducida en muchos idiomas y se ha estudiado con detenimiento previamente para la investigación de traducciones. De hecho, existen numerosas horas de audio de personas leyendo el Nuevo Testamento, y en base a esto han desarrollado un dataset de unas 32 horas de datos de cada uno de los 1.100 idiomas cubiertos.
Según afirman desde Meta, el ratio de error de palabras producido por su modelo asciende a tan solo 18,7 según la referencia FLEURS para su modelo con 1.100 idiomas, siendo notablemente inferior que el ratio de 44,3 producido por Whisper. Además, la cantidad de idiomas en comparación con Whisper es mucho mayor, ya que éste alcanza unos 100 idiomas. También hay otro modelo de MMS con 61 idiomas.
No es la primera vez que Meta habla sobre proyectos de traducción y transcripción multilingüe. Hace un tiempo hablábamos de NLLB, su modelo de lenguaje capaz de traducir 200 idiomas.
La compañía ha publicado el paper correspondiente a este proyecto, así como todo su código en Github para ejecutar la herramienta. Tal y como ocurrió con Whisper, es muy probable que en poco tiempo veamos aplicaciones compatibles para distintos sistemas operativos que utilicen la API de este proyecto.
La idea es que el proyecto cubra aún más idiomas, mientras también afrontan la dificultad de los dialectos. También mencionan que esta tecnología puede ser beneficiosa para casos concretos en los que se utilice tecnología de realidad virtual y aumentada.