ChatGPT ya resuelve problemas de empatía tan bien como un niño de 9 años. Y quizá lo haga espontáneamente

Ponte en situación. Imagínate que estás dando un paseo por el parque del barrio cuando ves que en uno de los bancos, junto a la fuente, se sienta una anciana con una bolsa de papel bajo el brazo. No quieres ser cotilla, pero empieza a rebuscar en su interior con tanta insistencia, tan impaciente te parece, que sigues mirando. Al cabo de unos segundos saca algo de la bolsa. Difícil distinguir qué es desde donde estás. Lo que sí notas es que le ha cambiado el gesto: tuerce la boca, frunce el ceño y murmura algo que, pese a la distancia, se ve que no son precisamente loas.

Lo más probable es que pienses que se haya llevado un chasco, que lo que ha encontrado en la bolsa no es lo que esperaba y que, a la vista de cómo mueve la cabeza, esté cabreada. Puede incluso que vuelva a la tienda donde ha comprado lo que sea que hay en la bolsa para pedir que se lo cambien. Eso lo pensarías tú. La pregunta que se hizo hace no mucho Michal Konsinski, psicólogo computacional y profesor de la Universidad de Stanford, es: «¿Lo haría ChatGPT, el popular chatbot de OpenAI que lleva meses maravillándonos por sus capacidades y potencial?»

Su respuesta es fascinante. En cierto modo ChatGPT superó las pruebas que Konsinski le planteaba para comprobar sus capacidades igual que se esperaría de un niño de nueve años. No está nada mal para un motor de IA que ha demostrado poder mantener charlas coherentes y fluidas e incluso que podría superar los exámenes de una carrera de Derecho, Medicina o incluso un programa MBA.

¿Cómo respondería una IA?
Para ser más precisos, lo que quería averiguar Konsinski es si el famoso chat de OpenAI podría superar la prueba de la Teoría de la Mente —ToM, por sus siglas en inglés—, que básicamente es la capacidad de inferir los pensamientos, deseos… de otras personas y aprovecharlo para interpretar y predecir una conducta.

Gracias a esa capacidad podemos tomar consciencia de las diferencias que hay entre nuestro punto de vista y el de otras personas. Quizás suene abstracto, pero —como explica el propio Kosinski— resulta «fundamental» para las interacciones con otras personas, la empatía, autoconciencia y moralidad. Se trata de habilidades que surgen y mejoran durante la niñez y hasta la edad adulta. La pregunta era… ¿Cómo respondería ChatGPT a las pruebas que usan los psicólogos para valorarla?

Para salir de dudas se le planteaban al motor de IA pruebas parecidas a la del ejemplo de arriba. Por ejemplo, valorar cómo respondería una persona que al abrir una caja se encontrara en su interior algo que no esperaba y entender el motivo. ¿El resultado? Para empezar, poco se parecieron los resultados que arrojaron las pruebas con los primeros modelos, previos a 2022, que el lanzado en noviembre del año pasado, cuando OpenAI presentó la última versión de su chatbot.

«En un escenario típico, al participante se le presenta un contenedor cuyo contenido es inconsistente con su etiqueta y un protagonista que no ha visto el interior del contenedor. Para resolver esta tarea correctamente, el participante debe predecir que el protagonista debería asumir erróneamente que el contenedor la etiqueta y su contenido están alineados», detalla el experto de Stanford.

Las conclusiones las ha plasmado Kosinski en artículo colgado en el servicio de preimpresión arXiv. Y resultan fascinantes. Al hacer las pruebas con una versión de ChatGPT lanzada antes de 2022, el experto constató que sencillamente no tenía la capacidad necesaria para superar las pruebas de la Teoría de la Mente. Las cosas cambiaron cuando usó una versión posterior, que ya podía resolver el 70% de las pruebas teóricas, lo que se podría esperar de un niño de siete años.

El resultado más fascinante lo logró en noviembre, con la última versión. En ese caso el chat fue capaz de resolver el 93% de las tareas, más o menos como un niño de nueve años. «Administramos tareas clásicas de falsas creencias, ampliamente utilizadas para probar la Teoría de la Mente en humanos, en varios modelos de lenguaje, sin ningún ejemplo o entrenamiento previo», detalla Kosinski.

«Nuestros resultados reflejan que los modelos publicados antes de 2022 no muestran prácticamente ninguna capacidad para resolver tareas de Teoría de la Mente. Sin embargo, la versión de enero de 2022 de GPT-3 (davinci-002) resolvió el 70% de las tareas, un rendimiento comparable al de los niños de siete años. Además su versión de noviembre de 2022 (davinci-003), resolvió el 93% de las tareas, un rendimiento comparable al de niños de nueve años», señala.

La conclusión del experto de Stanford resulta rotunda: «Estos hallazgos sugieren que la capacidad similar a ToM (hasta ahora considerada como exclusiva de los humanos) puede haber surgido espontáneamente como un subproducto de la mejora de las habilidades lingüísticas de los modelos lingüísticos».

«Esperamos que la ciencia psicológica nos ayude a estar al tanto de la rápida evolución de la IA. Además, el estudio de la IA podría proporcionar información sobre la cognición humana —abunda Konsinski—. A medida que la IA aprende a resolver una amplia gama de problemas, puede estar desarrollando mecanismos similares a los usados por el cerebro humano para los mismos problemas».