Los modelos de IA generativa están causando furor, pero también están inundando la web de nuevos contenidos a un ritmo frenético. Lo estamos viendo claramente con Midjourney y su capacidad creativa, pero también con ChatGPT, que por ejemplo está ayudando a los spammers a crear miles de sitios web. Ahora hay estudios que hablan de que eso plantea un gran problema en el futuro: el llamado «colapso del modelo».
Qué es el colapso del modelo. Como señalaban en el citado estudio, en el mundo de las Redes Generativas Antagónicas (GANs), el «modo colapso» —del que se deriva el término «colapso del modelo»— ocurre cuando el generador comienza a retroalimentarse y producir la misma salida una y otra vez. El colapso del modelo se refiere a un proceso de aprendizaje degenerativo en el que los modelos empiezan a olvidar sucesos improbables con el tiempo, a medida que el modelo se «envenena» con su propia proyección de la realidad.
Y si. El problema es que dado que la IA está llenando la web de contenido y que esa IA es entrenada y actualizándose con toda esa web que bulle y crece, ¿qué pasa con esa retroalimentación? ¿Cómo influirá en esos modelos el hecho de que cada vez más datos de su entrenamiento provengan de contenidos generados por IA, y no de contenidos generados por seres humanos?
Defectos irreversibles. Según los investigadores, «el uso de contenido generado por el modelo en su entrenamiento causa defectos irreversibles en los modelos resultantes». De hecho, apunta, «el proceso es inevitable, incluso en casos con condiciones casi ideales para el aprendizaje a largo plazo». ¿Por qué?
Degeneración rápida. Según ellos, porque con el tiempo «los errores en los datos generados se agravan y, en última instancia, obligan a los modelos que aprenden de los datos generados a percibir la realidad de forma aún más errónea». Ilia Shumailov, uno de los responsables del estudio, indicaba en VentureBeat que de hecho esa degeneración se puede producir muy rápidamente: «los modelos pueden olvidar rápidamente la mayor parte de los datos originales de los que aprendieron originalmente».
Una IA llena de residuos. Otro de los autores del estudio, Ross Anderson, de la Universidad de Edimburgo, explicaba en un post de su blog que lo que está pasando le recuerda a lo que ocurre con los océanos, que se llenan de plásticos. Eso, asegura, «dará ventaja a las empresas que ya lo hacían o que controlan el acceso a interfaces humanas a escala. De hecho, ya estamos viendo cómo las empresas de inteligencia artificial explotan The Internet Archive».
Cámara de eco a la vista. Otro efecto derivado del problema sería la de una especie de IA con una cámara de eco retroalimentándose continuamente. Ted Chiang, autor de ‘Story of Your Life’ —la novela que inspiró la película ‘La llegada’— explicaba en The New Yorker que el colapso llevará a una calidad cada vez peor, algo parecido a lo que ocurre con una imagen JPEG cuando se va copiando y degradándose.
Cómo evitar el colapso del modelo. Los investigadores indican dos formas de evitar este problema. La primera, guardando una especie de «copia maestra» del conjunto de datos de entrenamiento original «producido por humanos» y evitar «contaminarlo» con datos generados por una IA. La segunda, ir incluyendo nuevos conjuntos de datos generados por humanos a lo largo del entrenamiento en etapas posteriores.
De momento todo va bien. Por ahora los modelos han sido entrenados con datos generados por seres humanos —los usados por ChatGPT estaban actualizados hasta otoño de 2021, aproximadamente—, y queda por ver qué ocurrirá con futuros modelos que se actualicen con datos que incluyan los generados por estos modelos de IA. Las previsiones del estudio no son buenas, desde luego.