¿Una Siri capaz de leer labios? Apple patenta un sistema de reconocimiento de voz sin micrófono para su asistente virtual

Una nueva patente de Apple que acaba de darse a conocer ahora muestra que la compañía está pensando activamente cómo sería un programa capaz de “leer los labios”. La patente fue presentada oficialmente en enero de este año y describe de forma somera el funcionamiento de un sistema capaz de determinar si los “datos de movimiento” coinciden con una palabra o frase. Los diagramas mencionan específicamente comandos de voz sencillos dirigidos a Siri, como “Oye, Siri”, “Saltar” o “Siguiente canción”, y también habla de cómo un algoritmo que sea capaz de analizar la boca de los usuarios podría ayudar a entender mejor esos comandos.

Como explicaban desde Apple Insider, Apple reconoce que existen problemas obvios con los sistemas de reconocimiento de voz como Siri. Las voces pueden verse distorsionadas por el ruido de fondo, e incorporar sensores que monitoricen de forma continuada la voz supone un gasto tremendo de batería y potencia de procesamiento. Pero este nuevo sistema no tendría que usar necesariamente la cámara del dispositivo. En vez de eso, el software de reconocimiento de voz usaría uno de los sensores de movimiento del teléfono para grabar lo que hace la boca, el cuello o la cabeza y determinar si alguno de esos movimientos indica que una persona está hablando.

Estos sensores podrían ser acelerómetros o giroscopios, ya que, como señalaba Apple, es mucho menos probable que se vean alterados por estímulos no deseados que el micrófono del teléfono. Y ni siquiera tendría que tratarse de un teléfono, ya que la patente describe cómo ese tipo de tecnología de detección de movimiento podría integrarse en los AirPods o incluso en unas gafas inteligentes, y luego enviar esos datos al iPhone del usuario. Los dispositivos podrían detectar sutiles vibraciones en los músculos faciales o movimientos de la cabeza, según recoge el documento. Hace ya tiempo que los sueños de Apple sobre las gafas inteligentes murieron, pero la compañía espera grandes cosas de sus nuevas gafas VR Vision Pro.

Para poner en marcha este tipo de sistema, Apple necesitaría todavía recabar muchos datos, pero la compañía cree que una vez hecho esto podría configurar un “perfil de voz” para los usuarios. Se supone que Siri ya reconoce la voz de los usuarios de un iPhone, puesto que la función Live Speech de iOS ya es capaz de grabar los perfiles de voz de los usuarios para más tarde copiar sus entonaciones y así trasladar la voz a texto. Habrá que ver cuánto más trabajo se necesitaría.

Por supuesto, Apple registra infinidad de patentes, y no todas se acaban convirtiendo en realidad, pero este tema parece que algo más de sustancia que algunas otras ideas locas de los de Cupertino.