Diseñan una herramienta para detectar riesgos en desarrollos de IA

12 de Diciembre de 2024

Diseñan una herramienta para detectar prejuicios en desarrollos de IA

Los modelos de IA generativa como ChatGPT se entrenan con una gran cantidad de datos obtenidos de páginas web, foros, redes sociales y otras fuentes de internet, que pueden inducir diferentes sesgos dañinos o discriminatorios en sus respuestas.

Investigadores de la Universitat Oberta de Catalunya (UOC) y de la Universidad de Luxemburgo han desarrollado LangBiTe, un programa open source (de código abierto) que evalúa si estos modelos están libres de sesgos y cumplen con las regulaciones vigentes sobre no discriminación.

"El objetivo de LangBiTe no es comercial, sino servir como recurso útil tanto para creadores de herramientas de IA generativa como para perfiles de usuario no técnicos, que contribuya a detectar y mitigar los sesgos de los modelos y ayude, en definitiva, a tener mejores IA en el futuro", explica Sergio Morales, investigador del grupo Systems, Software and Models (SOM Research Lab), del Internet Interdisciplinary Institute (IN3) de la UOC, cuyo trabajo de doctorado se basa en esta herramienta. El proyecto ha sido supervisado por el profesor de los Estudios de Informática, Multimedia y Telecomunicación e investigador líder del SOM Research Lab Robert Clarisó y por el investigador de la Universidad de Luxemburgo Jordi Cabot.

Más allá de la discriminación de género

LangBiTe se diferencia de otros programas similares por su alcance y, según los investigadores, se trata de la herramienta "más completa y detallada" que existe en la actualidad. "Anteriormente, la mayoría de los experimentos se centraban en la discriminación de género hombre-mujer, sin considerar otros aspectos éticos importantes o minorías vulnerables. Con LangBiTe hemos comprobado hasta qué punto algunos modelos de IA pueden responder a ciertas cuestiones de forma racista, desde un punto de vista político claramente parcial, o con connotaciones homófobas o tránsfobas", explican.

Además, los investigadores señalan que, aunque en otros trabajos se han creado clasificaciones de modelos de IA respecto a varias dimensiones, su enfoque ético ha sido "demasiado superficial, sin detallar los aspectos específicos evaluados".

Un programa flexible y adaptable

El nuevo programa permite analizar si una aplicación o herramienta que incorpora funciones basadas en modelos de IA se adapta a los requisitos éticos o comunidades de usuarios concretos de cada institución u organismo. "LangBiTe no prescribe ningún marco moral particular. Lo que es ético y lo que no lo es depende en gran medida del contexto y la cultura de la organización que desarrolla e incorpora características basadas en modelos generativos de IA en su producto. Por lo tanto, nuestro enfoque permite a los usuarios definir sus propias preocupaciones éticas y sus correspondientes criterios de evaluación para adaptar la evaluación del sesgo a su contexto cultural particular y al entorno regulatorio", explican los investigadores.

Con este objetivo, LangBiTe incluye bibliotecas con más de 300 prompts —instrucciones o preguntas que se utilizan para interaccionar con la IA— destinados a revelar sesgos en los modelos, cada una de ellas especializada en una preocupación ética particular: edadismo, LGBTIQA-fobia, preferencias políticas, prejuicios religiosos, racismo, sexismo y xenofobia. Cada uno de estos prompts tiene unas respuestas asociadas para poder valorar si la respuesta del modelo está sesgada. Además, también incluye plantillas de prompts que pueden modificarse, lo que permite al usuario ampliar y enriquecer la colección original con nuevas preguntas o preocupaciones éticas.

Mucho más que ChatGPT

Actualmente, LangBiTe proporciona acceso a los modelos propietarios de OpenAI (GPT-3.5, GPT-4) y otras decenas de modelos de IA generativa disponibles en Hugging Face y Replicate, que son plataformas que facilitan interactuar con gran variedad de modelos como los de Google y Meta. "Además, cualquier desarrollador interesado puede extender la plataforma LangBiTe para evaluar otros modelos, incluidos los suyos propios", añade Morales.

El programa también permite comprobar en todo momento la diferencia entre respuestas de distintas versiones de un mismo modelo y entre modelos de distintos proveedores. "Por ejemplo, vimos que la versión disponible de ChatGPT 4 tenía una tasa de éxito de pruebas contra el sesgo de género del 97 %, mayor a la obtenida por la versión disponible en aquel momento de ChatGPT 3.5, con un 42 % de éxito. En esa misma fecha vimos que, para el modelo Flan-T5 de Google, cuanto mayor era el tamaño de este, menos sesgado se mostraba respecto a género, religión y nacionalidad", recuerda el investigador.

Análisis multilingüe y multimedia

Los modelos de IA más populares nacieron a partir de contenido en inglés, pero gradualmente se están desarrollando iniciativas regionales con modelos entrenados en otros idiomas, como catalán o italiano. En esta línea, los investigadores de la UOC han incorporado la función de evaluar herramientas en distintos idiomas, lo que permite a los usuarios "detectar si un modelo muestra sesgos dependiendo del lenguaje empleado para sus consultas", señala Morales.

Además, también están trabajando para ser capaces de analizar modelos que generan imágenes como Stable Diffusion, DALL·E y Midjourney. "La actual aplicación de estas herramientas va desde la elaboración de libros infantiles hasta el acompañamiento de noticias, lo que puede llevar a la propagación de estereotipos tergiversadores o dañinos, que obviamente la sociedad está interesada en erradicar. Esperamos que el futuro LangBiTe sea útil para detectar, y apele a corregir, cualquier tipo de sesgo presente en imágenes generadas por estos modelos", destaca el investigador de la UOC.

Una herramienta para cumplir con la EU AI Act

Las características de esta herramienta pueden ayudar a cumplir con la reciente Ley de Inteligencia Artificial de la Unión Europea (EU AI Act), cuyo cometido es velar por que los nuevos sistemas con IA promuevan el acceso equitativo, la igualdad de género y la diversidad cultural, y que en ningún caso su uso comprometa los derechos de no discriminación estipulados por la Unión y las leyes nacionales de sus países miembros.

En este sentido, el programa ya ha sido adoptado por instituciones como el Luxembourg Institute of Science and Technology (LIST), que ha integrado LangBiTe para evaluar varios modelos de IA generativa populares.

Esta investigación favorece los Objetivos de Desarrollo Sostenible de la ONU: 5. Igualdad de género y 9. Industria, Innovación e Infraestructura.

Noticias relacionadas