Una de las preocupaciones de los estudiosos en el ámbito de la inteligencia artificial reside en el hecho de que no sabemos cómo piensa ChatGPT o las máquinas. Los algoritmos y sistemas los definen los seres humanos, pero la forma en la que los sistemas de IA llegan a las conclusiones a las que llegan para producir esos resultados sigue siendo un misterio. Eran una caja negra. Al menos, hasta ahora.
¿Qué piensas, máquina? OpenAI acaba de anunciar una herramienta que automáticamente detecta qué partes de un Gran Modelo de Lenguaje (LLM por sus siglas en inglés) son responsables de cada uno de sus comportamientos. El proyecto está por el momento en una fase preliminar, pero el código para evaluar ese comportamiento está ya disponible en GitHub.
Buscando entender a la IA. William Saunders, uno de los responsables del proyecto, explicaba en TechCrunch que «estamos intentando desarrollar formas de anticipar cuáles serán los problemas con un sistema de IA. Queremos ser capaces de saber que podremos confiar en lo que está haciendo el modelo y en la respuesta que produce».
Pruebas con GPT-2. Curiosamente para lograr desvelar el funcionamiento interno de estos sistemas LLM, en OpenAI están usando un modelo de lenguaje. De momento han iniciado las pruebas con GPT-2, el predecesor de GPT-3, cuya versión mejorada acabó siendo la base de ChatGPT.
Analizando las «neuronas» de ChatGPT. Los LLM están formadas por una especie de «neuronas» que observan patrones en el texto para ir generando lo qeu van diciendo. La herramienta de OpenAI trata de descomponer el modelo en piezas individuales: la herramienta primero va ejecutando secuencias de texto en el modelo, y analiza cuándo un «neurón» en particular se activa. Luego se lo enseña a GPT-4, que genera una explicación, y genera una predicción de cómo se comportaría el neurón dada la secuencia introducida. Luego se compara la salida real del modelo original con la generada por GPT-4 y así se estudia si era el comportamiento esperado.
Por qué ChatGPT hace lo que hace. Gracias a la herramienta los investigadores pudieron generar explicaciones para las 307.200 neuronas que conforman GPT-2, y compilaron toda esa información en un conjunto de datos que ya está disponible junto al código del proyecto. Es también posible acceder al llamado «Neuron Viewer» para comprobar cómo funciona la herramienta.
Mucho camino por recorrer. Los investigadores de OpenAI reconocen que hay muchísimo margen de mejora: la herramienta mostró seguridad al explicar cerca de 1.000 de esos neurones, una pequeña fracción del total. «La mayoría de las explicaciones tienen una puntuación bastante baja o no explican gran parte del comportamiento real de la neurona», explica Jeffrey Wu, otro de los responsables del proyecto. «Muchas neuronas, por ejemplo, están activas de una forma en la que es muy difícil saber qué está pasando: se activan con cinco o seis cosas distintas, pero no hay un patrón discernible. A veces hay un patrón discernible, pero GPT-4 es incapaz de encontrarlo». Aún así, es un buen comienzo a la hora de descubrir cómo piensan ChatGPT.