En diciembre de 2020 Google anunciaba ‘Look To Speak’, una aplicación pensada para ayudar a personas con discapacidad a hablar a través de la mirada. Con el aprendizaje adquirido dos años después, esta tecnología sigue avanzando con el objetivo de ser un elemento integrado dentro de los productos con Asistente de Google.
¿El objetivo? Que deje de ser necesario decir el incómodo ‘Ok Google’ para activar el Asistente de Google, y que este sea capaz de activarse automáticamente cuando detecte nuestra mirada. Google ha explicado cómo funciona esta tecnología y los retos a los que se han enfrentado.
A pesar de que ‘Ok Google’ sigue siendo uno de los pilares para activar el Asistente de Google, la explicación técnica de Google acerca de ‘Look to Speak’ empieza fuerte: «en las conversaciones naturales, no decimos los nombres de las personas cada vez que nos dirigimos a ellas».
Google quiere que Assistant sea lo más parecido a un humano y que su interacción sea lo más natural posible, incluyendo esto que pueda empezar a hablar con nosotros cuando inicie un contacto visual. Para lograr esto anunciaron ‘Talk to Speak’ en el Google I/O 2022, explicando ahora que es la primera vez en la que el dispositivo analiza simultáneamente audio, vídeo y texto.
Crear el modelo no era algo tan sencillo como activar el Asistente de Google cuando miramos al Google Nest Hub, dispositivo que cuenta con esta tecnología. La función solo se activa si el modelo detecta que queremos interactuar con él. Para ello se analiza la distancia del sujeto respecto al dispositivo, la orientación de la cabeza, de la mirada, determinar si la dirección del sujeto es óptica para una conversación activa, etc.
Para estos análisis se analizan fotogramas tanto de vídeo como la entrada de audio, para predecir si el usuario está hablando e interactuando con su entorno doméstico (si, por ejemplo, estamos hablando con alguien en casa, no debería activarse la detección del Asistente). La entrada de audio va vinculada all Voice Match de Google, por lo que el Asistente no interactuará con nadie que cuya voz no se reconozca.
Especialmente interesante respecto al audio es que el modelo detecta si estamos intentando hacer una consulta al asistente analizando información no léxica. En otras palabras, se analiza el tono de voz, la velocidad y algunas señales contextuales para comprender si queremos o no hacer una consulta.