Algoritmos, datos, sesgos e inteligencia artificial

Hablamos mucho de estas cosas, y no siempre da la impresión de que el conocimiento llegue al público, aunque fuese en los aspectos más generales. Pero, para eso tenéis a vuestro Panadero.

Últimamente oigo demasiado hablar sobre los “algoritmos” y su “maldad”.

Recordemos que un algoritmo es una secuencia de pasos para resolver un problema, como una receta de cocina.

Hoy en día, si pensáis en una inteligencia artificial como un robot que “siente”, tiene “voluntad”, “creatividad”, etc., al menos en la medida que nosotros podamos tenerla… no existe.

Lo que sí tenemos son sistemas “expertos” que son capaces de tomar decisiones en campos concretos de manera similar o superior a humanos expertos en esas materias. Por ejemplo, los programas que juegan al ajedrez o al go.

Si hay algoritmos interesantes en esas máquinas son los que les llevan a “aprender”, a comprender la situación para luego poder desenvolverse, tomar decisiones y demás.

El más avanzado programa de Go lo que hizo fue jugar muchísimas veces contra “sí mismo”, en realidad contra versiones anteriores, hasta conseguir tener un desempeño lejos del alcance del mejor humano.

Aunque el sistema de entrenamiento más conocido es el supervisado, en el que le facilito a la máquina una base de datos y espero que ella los “entienda”, extraiga patrones y conclusiones que le permitan tomar decisiones en el futuro.

Por ejemplo, un banco quiere entrenar una IA para que evalúe la posibilidad de que esta persona que está pidiendo un crédito termine siendo un moroso. Lo que se hace es dejar que la máquina eche muchas “cuentas” en algo que podíamos llamar (que me perdonen los puristas) “estadística con esteroides”, hasta que encuentra unas ciertas “reglas” que le permite “anticipar”, conociendo tus circunstancias (sexo, edad, dirección, nivel de estudios, etc.) si vas a ser moroso o no. Vaya, lo mismo que antes tenía que hacer un humano, tirando de su experiencia.

De esta forma, los datos que le damos a la IA son su “única” experiencia… y eso es muy peligroso.

Veamos un ejemplo, vamos a jugar a que tú eres la IA, yo te daré un conjunto de datos de una población que me he inventado y luego te preguntaré si concedemos el crédito a unas personas nuevas que vienen a pedirlo.

Estos son tus datos.

Venga, ¡échales un ojo que ya vienen los clientes!

Acaba de aparecer Guillermo, hombre, de raza negra, del que no sabemos si tiene hijos o dónde vive. ¿Qué hacemos?

Otro, Luisa, mujer, de raza blanca, de la que tampoco sabemos más.

Uno más, Pepi, mujer de raza blanca y con hijos.

Atención, olvídate de todo lo que no sean tus datos, tú, como IA sólo tomas información de ellos. Y, estos datos, míralos, nos dicen que alguien como Guillermo, no será un buen pagador.

Así que, nos vamos a otro banco con otra IA, que ha aprendido de estos datos

Si le planteamos los mismo casos de antes, Guillermo, Luisa y Pepi, verás que, en este caso, las conclusiones no serán muy halagüeñas para Luisa y Pepi.

Lamentablemente eso es lo que “dicen” los datos. En el primer caso, que las personas de raza negra serán morosas y en el segundo que las mujeres no serán muy proclives a devolverlo.

¿Es verdad que eso es lo que pasa con las personas que comparten esas características en mi población inventada? ¿Son “mentira” esos datos?

No son mentira… son un SUBCONJUNTO del total, una visión parcial que puede malinterpretarse, porque estamos tratando de forma incorrecta esa muestra de datos. Mira la población que me inventé y mira cómo son, efectivamente, subconjuntos. Siendo la población completamente equilibrada respecto a los indicadores de raza, hijos o sexo.

Las mismas personas que estaban en los subconjuntos están en el total, no se han manipulado sus datos, sólo que habíamos tomado muestras sesgadas. Como quien pregunta a dos personas por la calle dónde está el cine y concluye que nadie en el pueblo lo sabe porque el cien por cien de los encuestados (DOS!) no lo sabía.

¿Qué diferencia hay entre estos sistemas y las estadísticas tradicionales?

Pues que aquí, ni en los datos, ni en la máquina final es tan sencillo interpretar si están sesgados, qué sesgos tienen o cómo eliminarlos. En la práctica se puede caer en ir a “lo fácil”: He pagado un pastón por la máquina, le he metido muchos datos y me dice que no le dé el préstamo a Pepi. Pues no se lo doy.

Lo gordo es que a Pepi no le das el préstamo ni ninguna otra explicación, no sabe por qué ha sido excluida (quizá ni los propietarios lo saben) o por qué no contrataron el otro día a su primo David, o por qué es tan cara la póliza del seguro de su padre.

Como os decía es algo bastante complejo. Mirad, intentemos arreglar la base de datos primera, la que estaba sesgada por raza, para que no aplique ese sesgo. Borremos directamente la información racial, y veamos qué conclusión sacamos.

En este caso lo “poco recomendable” es prestarle dinero a alguien de la ZONA2… y ahora os animo a que vayáis a la base de datos y veáis que en los distintos barrios predominan distintas razas, con lo que, incluso quitando la información sobre la raza, mi base de datos conserva un sesgo racista.

Si añadimos a esto que LAS RAZAS HUMANAS NO EXISTEN y que NO SE CONSIDERA AL “SEXO” COMO UNA OPCIÓN BINARIA terminando con un doble mortal, nuestra máquina sesga a personas (sin que seamos conscientes) y además por características que están mal definidas o recopiladas. La pera.

Como veis, la “maldad” no está en el algoritmo, ni en las matemáticas, ni en particular en la estadística o en la programación… las máquinas heredan los “prejuicios” que están contenidos en los datos con las que se las entrena. No tienen la capacidad de entender que si hay un colectivo marginado al que nunca se le concede el acceso a crédito, jamás podrá salir de la pobreza y pagar esos créditos, o que es normal que otros colectivos no hayan tenido nivel alto de estudios, si se les prohibió acceder a ellos(!!) y tantas cosas, que no se infieren de conjunto de datos limitado y sesgado con el que las “alimentamos”. El diablo está en los datos.

Por cierto, ¿esto no os hace pensar en esas pequeñas criaturitas que se (mal)educan en entornos terribles y llegan a ciertas conclusiones sobre los otros y la vida, porque no han tenido los pobres otro input que ese, y van repitiendo consignas que ni siquiera resisten el mínimo análisis lógico. Uno de los ejemplos más claro de esto son los inmigrantes de Schrödinger que pueden A LA VEZ quitarte el trabajo y estar en casa sin hacer nada mientras cobran ayudas públicas.

Quizá os parezca que digo cosas raras o que pasarán en el futuro, pero dejadme que os ponga dos ejemplos del pasado bastante llamativos.

Un bot de Twitter que, al dejarle que aprendiera de la interacción con los usuarios (ya sabemos cómo es Twitter), terminó convirtiéndose en un troll, maleducado, sexualizado, fan de Hitler y de Trump.

Un programa de reconocimiento de fotografías que, al haber sido entrenado para reconocer a personas fundamentalmente de piel clara… confundió a una pareja de piel oscura con… ejem… con… gorilas(!!)

Y es por asuntos como este, de los que no se habla lo suficiente, por lo que se pide que estas cosas que se hacen con IAs estén abiertas al escrutinio público, ya que nos afectan a todos y pueden atentar contra derechos tan fundamentales, como que te consideren humano, pero claro, también está el dinero…

Un recuerdo siempre a Helena Matute que es un referente en esta lucha por lo que es de todos.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google photo

Estás comentando usando tu cuenta de Google. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s

A %d blogueros les gusta esto: