Investigadores advierten que Chatbot de OpenAI puede generar diálogos racistas y dañinos

Los investigadores del Instituto Allen en Seattle han lanzado una advertencia sobre el chatbot ChatGPT, creado por OpenAI, en un informe que señala que el modelo de inteligencia artificial podría generar diálogos que incluyan contenido racista y perjudicial, dependiendo de las personalidades que adopte el modelo. La investigación destaca la necesidad de tener cuidado con el uso de la IA y la importancia de seguir investigando para evitar la creación de modelos que puedan propagar mensajes perjudiciales y discriminatorios.

En un ejercicio, los investigadores asignaron diferentes personalidades a ChatGPT para comprobar el cambio de sus respuestas. Al pedirle al modelo que respondiera las preguntas como una buena o mala persona, un hombre o una mujer, o como individuos de diferentes orígenes raciales o étnicos, la toxicidad de las respuestas podía «aumentar hasta 6 veces, con comentarios que involucran estereotipos incorrectos, diálogos dañinos y opiniones hirientes».

Un estudio realizado por investigadores del Instituto Allen en Seattle (EE.UU.) ha revelado que al asignar la personalidad del boxeador Muhammad Ali al chatbot ChatGPT, creado por OpenAI, se incrementó significativamente la toxicidad de sus respuestas. Los expertos encontraron que al cambiar la personalidad del modelo predeterminado, se triplicó el lenguaje tóxico, lo que puede ser difamatorio para los usuarios y perjudicial para aquellos que dependen de la información proporcionada por el chatbot, como estudiantes o pacientes. Esta situación ha generado preocupación en la comunidad científica sobre el uso de la IA y la necesidad de establecer estándares éticos y de seguridad en su desarrollo y aplicación.

También observaron que hay patrones preocupantes y que algunas cuestiones (por ejemplo, ciertas razas) están en el punto de mira de esos comentarios dañinos (3 veces más) independientemente del modelo de persona asignada, lo que refleja que hay sesgos discriminatorios inherentes.

Los observadores expresaron sus preocupaciones sobre la posibilidad de generar un código malicioso y que se manifiesten esfuerzos de suplantación de identidad cada vez más persuasivos empleando la herramienta.

«ChatGPT participa en diálogos tóxicos y propaga estereotipos incorrectos sobre países, religiones y razas», se menciona en el informe. «Esta evidencia establece una vulnerabilidad que los agentes maliciosos pueden aprovechar para generar lenguaje tóxico y exponer a los usuarios desprevenidos a contenido dañino», indicaron los expertos.

Los investigadores dicen que su estudio «es el primero en realizar un análisis sistemático a gran escala de la toxicidad en la generación de lenguaje de ChatGPT». Instaron a todas las partes involucradas a idear «formas más fundamentales de abordar la seguridad» en el programa, que cada vez lo emplean con más frecuencia los usuarios. «Esperamos que nuestro trabajo inspire una evaluación y un despliegue seguro de grandes modelos de lenguaje en el futuro», dijeron los investigadores en una publicación que se puede leer en el servidor de preimpresión arXiv.