OpenAI quiere que GPT-4 sustituya a todos los moderadores de Internet. La pregunta es si no lo empeorará

El desarrollo de la inteligencia artificial sigue su curso. Las tecnológicas siguen entrenando sus modelos de lenguaje, las empresas de Hardware como Nvidia continúan desarrollando herramientas más y más potentes y Sam Altman, CEO de OpenAI, tiene clarísimo que la IA acabará con puestos de trabajo. El de los moderadores podría estar entre ellos, ya que ahora la empresa quiere que GPT-4 modere Internet.

Moderación asistida por IA. OpenAI es la empresa que ha desarrollado el modelo de lenguaje GPT. Aparte de poder utilizarlo en su propia plataforma, tenemos GPT-4 en aplicaciones de terceros, como el buscador Bing de Microsoft. Es el modelo de lenguaje más popular y, casi tras convertirse en sinónimo de «inteligencia artificial», OpenAI quiere que GPT-4 modere contenido de Internet. ¿Cómo? La plataforma se encargará del grueso y aplicará correcciones consistentes mientras un grupo de humanos supervisan.

Antes, habrá que moderarla a ella. Antes de ver la propuesta de OpenAI, toca preguntarse si la propia GPT está lista para esto. Hace unas semanas desactivaron su herramienta de comprobación de textos que permitía, gracias a análisis de la IA, encontrar artículos escritos con estas herramientas. Hablando mal, fallaba más que una escopeta de feria debido a una precisión de sólo el 26%. La empresa declaró que iban a seguir investigando para crear un sistema mejor, pero aún no tenemos una solución.

Hay casos y casos. Volviendo al objetivo de moderar internet, cuando hablamos de moderar, podemos pensar que van a encargarse de regular publicaciones en fotos o redes sociales, pero no es sólo eso. La moderación abarca desde un comentario en el que alguien insulta hasta contenidos tóxicos o que, directamente, atentan contra los derechos humanos.

Hay plataformas como Facebook que tienen sistemas muy concretos de apoyo a la moderación basados en modelos de inteligencia artificial, pero lo que pretende OpenAI es que haya un criterio común para el grueso de los contenidos que se encuentran en Internet.

Quién modera al moderador. Pero claro, al menos de momento, la inteligencia artificial se basa en la moral (por decirlo así) de quien la entrena y OpenAI declara que los modelos de lenguaje pueden emitir juicios de moderación en función de las directrices que se les proporciona. Pueden comprender y generar un lenguaje natural idóneo para la moderación, pero detrás sigue estando la moral humana. Eso hace que nos preguntemos qué reglas seguirá o si habrá un consejo con diferentes criterios que entrenen a la inteligencia artificial.

Ya hay quien usa GPT-4 para moderar y, de hecho, un distrito escolar en Iowa está preguntando a ChatGPT qué libros contienen una descripción o representación de un acto sexual para, posteriormente, retirarlos de la biblioteca. ¿Quién marca la moral de ChatGPT aquí? Bridgette Exman, superintendente de Mason City y, de los 19 libros eliminados, sólo cuatro tenían contenido explícito o sexual. Uno de ellos es ‘El cuento de la criada’.

De meses a horas. Pero bueno, una vez la IA tiene unas directrices, OpenAI afirma que puede agilizar el proceso de moderación y pasar de meses a horas. Concretamente, estos son los pasos que proponen:

Una vez redactada la directriz, los expertos pueden crear un conjunto de datos con una pequeña muestra a las que asignan etiquetas que están en comunión con las directrices propuestas inicialmente. Con esto, elaboran unas respuestas.
GPT-4 asimila las directrices y, sin ver las respuestas de los expertos, realiza el proceso de asignación de etiquetas a la muestra de datos.
Los expertos analizan la discrepancia entre los juicios tanto de ellos como de GPT-4 y, analizando las posibles ambigüedades, realizan cambios para que GPT-4 tenga más claras las directrices y los criterios a aplicar.

Proceso de moderación de GPT-4.

Estos son los resultados en sus pruebas. LLM es GPT-4 y afirman que los resultados son similares a los de los humanos con entrenamiento ligero (muestra B). Los moderadores experimentados (muestra A) siguen siendo superiores.

Hecho esto, OpenAI comparte que el equipo de entrenamiento puede repetir los pasos dos y tres hasta que estén satisfechos con las respuestas de la inteligencia artificial. Y, al final, esto agilizará el trabajo de los humanos porque puede manejar tanto muestras a gran escala como de forma más concreta.

Menos estrés postraumático. Uno de los objetivos que marca OpenAI es el de que la moderación de contenidos sea más consistente, aplicando siempre el mismo criterio a la vez que se puede adaptar rápidamente a nuevos puntos de vista. Sin embargo, no es lo único. También afirman que otro objetivo es reducir la carga mental de los moderadores humanos. No son pocas las noticias que, de vez en cuando, hacen saltar las alarmas al desvelar que los moderadores desarrollan estrés postraumático (como los Microsoft, Facebook, TikTok o YouTube).

De hecho, en una entrevista a Semafor, Lilian Weng, directora de sistemas de seguridad de OpenAI, ha confirmado que este sistema puede ayudar con la desinformación, pero también con contenido como la pornografía infantil. Y es que, están investigando cómo aplicar este sistema de moderación a imágenes y vídeo.