Un equipo de investigación sobre superalineación de OpenAI se encuentra desarrollando herramientas para garantizar el control de una inteligencia artificial (IA) sobrehumana para que no pueda volverse contra nosotros. «Creemos que la superinteligencia, una IA mucho más inteligente que los humanos, podría desarrollarse en los próximos 10 años«, comentaron este jueves.
«Los modelos sobrehumanos en términos generales serían extraordinariamente poderosos y, si se usan mal o no se alinean con los valores humanos, podrían causar daños catastróficos», plantearon los investigadores de OpenAI en las conclusiones de su estudio, publicado recientemente.
El equipo considera un imperativo actual el alinear (dirigir y controlar) los futuros sistemas de IA sobrehumanos para que sean seguros y señalan que ahora es el momento adecuado para realizar «avances empíricos en este problema». Los investigadores exponen que las actuales técnicas de alineación de modelos de IA ampliamente utilizadas, como el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF), serían incapaces de supervisar la seguridad de los modelos sobrehumanos más inteligentes que ellos.
Como ejemplo, señalan que los modelos sobrehumanos podrían «escribir millones de líneas de código informático novedoso (y potencialmente peligroso) que sería muy difícil de entender incluso para humanos expertos». En este sentido, los humanos serán «supervisores débiles». «¿Cómo pueden los supervisores débiles confiar y controlar modelos sustancialmente más fuertes?«, se preguntan desde OpenAI.
El equipo desarrolló un método denominado ‘generalización de débil a fuerte’. El prometedor método se basa en entrenar modelos grandes de IA con modelos de IA más pequeños que podrán transmitirle a estas superinteligencias nuestros valores con un nivel más alto de precisión en múltiples circunstancias, en comparación con el entrenamiento humano. Los investigadores consideran que los modelos de IA menos complicados los entrenarán en nuestro nombre.
Para el estudio realizaron una prueba de concepto que utilizó a GPT-2 como modelo débil para entrenar a GPT-4. Obtuvieron un rendimiento final al nivel de GPT-3,5 en tareas de procesamiento del lenguaje natural. Aunque desde OpenAI plantean que no están convencidos de que ya sea una «solución» definitiva para la superalineación, señalan que constituye un marco prometedor para entrenar a una IA superhumana. Con base en sus resultados sugieren que es posible realizar progresos empíricos hoy en día en el alineamiento de modelos suprahumanos.