¿Sabéis qué hay mejor que tener un par de horas (o más) para viciar a tu juego favorito? Jugar y picar algo entre y durante partida y partida. Que sí Jose Miguel, que tú tienes una vida y no pasas tus horas delante del ordenador jugando al ‘WoW’ y comiendo Doritos, pero algunos disfrutamos de estos pequeños placeres de la vida.
En fin, volviendo al tema. ¿Cuál es el problema de picar algo mientras juegas? Que se te llenan los dedos de grasa y pizcos (salvo que te comas una pera, que bueno, no es lo normal) y, por supuesto, que tus compañeros de escuadra seguramente estén deseando saber donde vives para ir a decirte de forma muy respetuosa que dejes de comer patatas mientras hablas por Discord.
¿Y cómo solucionamos este problema? ¿Cómo hacemos que la gente pueda seguir comiendo Doritos mientras juega a ‘Warzone 2.0’ sin que el chat de voz se llene de ñams, cracks, crunchs y demás sonidos al masticar? Pues Doritos ha tenido una idea: un sistema basado en inteligencia artificial bautizado Doritos Crunch Cancellation. Y sí, lo hemos probado.
Antes de poner a prueba esta tecnología, no está de más repasar cómo funciona. Muy grosso modo, una inteligencia artificial necesita mucha información para aprender a hacer algo. Por ejemplo, imaginemos que queremos enseñarle a una IA a dibujar un árbol. ¿Cómo lo hacemos? La entrenamos con miles y miles y miles de imágenes de árboles para que sepa qué es un árbol, cuál es su estructura, etc. Insisto, esto es en términos muy generales, la realidad es bastante más compleja.
Pues con los sonidos es igual. Si queremos que la IA sepa detectar y, en este caso, filtrar un sonido tan característico como puede ser el crack al comer Doritos, «simplemente» tenemos que exponerla a cuántos más cracks diferentes, mejor. Eso es, más o menos, lo que han hecho Doritos y Glassworks a través de su departamento Glassworks Labs para desarrollar esta, cuanto menos, curiosa funcionalidad que no deja de ser parte de una campaña de publicidad ideada por la agencia TWBA.
Para desarrollar el software, Doritos pidió a los usuarios que enviasen vídeos o audios comiendo Doritos (el llamado «Casting de crujidos»). Con esos clips (y algo más, como veremos enseguida), Glassworks (la compañía que hay detrás de esta tecnología) se encargó de desarrollar el sistema. El desarrollo ha llevado cuatro meses y se ha usado como base una biblioteca de NVIDIA: Maxine.
El software se puede descargar de forma totalmente gratuita desde la web de Doritos previa cumplimentación de un formulario. Es compatible solo con Windows 10/11 y requiere de una tarjeta gráfica NVIDIA RTX 20 o 30 para funcionar. Una barrera de entrada, sin duda, pero por una razón sencilla: la librería Maxine de NVIDIA.
Según nos explican Xavi Tribó (Director Tecnológico en Glassworks) y Clara Titos (Producer en Glassworks), el software desarrollado para Doritos está basado en la librería Maxine de NVIDIA, cuyo SDK es compatible con las arquitecturas Turing, Ampere y Ada. Si bien es cierto que los crujidos enviados por los usuarios se han usado para entrenar al modelo, la mayor parte de la magia recae en manos del SDK de NVIDIA. Si el nombre de Maxine te resulta familiar es posible que se deba a que hayas usado NVIDIA Broadcast, puesto que usa la misma biblioteca.
Básicamente, el software ejecuta la inteligencia artificial en tiempo real con un retraso de 25 milisegundos, algo que desde Glassworks aseguran es inapreciable en el uso. El software recoge 1.000 muestras de audio por segundo y lo envía a la gráfica, que se encarga de ejecutar los algoritmos en tiempo real. La gráfica hace uso de los Tensor Core para este proceso (y no precisamente bajo), de ahí que se requiera una gráfica de la serie 20 o 30 de NVIDIA. La RTX 40 también debería funcionar, pero es más nueva.
Y ahora que ya conocemos mejor el sistema, toca la parte divertida: comer Doritos y, ya que estamos, merendar ver si funciona con otras patatas.
Para poner a prueba la tecnología de Doritos he hecho una prueba bastante sencilla: una cata en directo. Para amenizar la jornada, me he abierto un paquete de Doritos, uno de Ruffles Jamón y unos Cheetos Pandilla, así podemos ver cómo rinde la IA en diferentes situaciones.
El software que hemos usado para capturar imagen y sonido es OBS. El sistema funciona mediante un cable virtual que se instala en el proceso de instalación principal. Simplemente hay que seleccionar Cable Input como dispositivo de entrada. Dicho lo cual, he aquí el resultado (¿nos seguís ya en Twitch, por cierto?). Durante el vídeo, podéis ver cuándo y qué patatas estoy comiendo y que tal se comporta el software según lo hayamos configurado.
Como podemos comprobar, el software funciona sorprendentemente bien independientemente de los snacks que comamos porque, como vimos anteriormente, no es una cuestión de haber entrenado el modelo sola y exclusivamente con sonidos de Doritos, sino que la librería Maxine de NVIDIA es capaz de ir mucho más allá.
De hecho, no solo cancela el crujido al comer, sino también las palmas, los chasquidos de dedos, etc. La cosa es que este mismo resultado se puede conseguir con NVIDIA Broadcast porque, recordemos, usa la misma librería que el software de Doritos. Tendremos que esperar para ver si este proyecto tiene más continuidad y si hay más versiones o implementaciones, pero lo que queda claro es que funcionar, funciona.
Tiene sus cosas, evidentemente: el software no es perfecto. Si hablamos a la misma vez que hacemos ruidos estridentes, nuestra voz tiende a ser más metálica o incluso a no escucharse bien.
Más allá de la curiosidad del software, lo que realmente llama la atención es el avance que está teniendo la tecnología de inteligencia artificial en tiempo real. Ya no es solo que sea posible cancelar el ruido con un delay inexistente, sino que Maxine es capaz, por ejemplo, de corregir nuestros ojos durante las videollamadas. ¿Hasta dónde llegará esta tecnología? No lo sabemos, pero lo que es seguro es que nos depara cosas muy interesantes.
PD: dejo una idea gratuita para desarrolladores: desarrollar un software que sea capaz de eliminar en tiempo real los brillos provocados por los focos en las gafas. Atentamente: alguien que hace TikTok y streaming y está cansado de tener un brillo verde en la cara todo el rato.