Cuando la IA acierta por el motivo equivocado

Una inteligencia artificial puede equivocarse de muchas formas. A veces responde una tontería, a veces inventa un dato, a veces confunde una imagen con otra. Son fallos visibles, casi cómicos, fáciles de detectar y de corregir. Pero hay un tipo de error mucho más sutil y mucho más peligroso: el error que no parece un error. La IA acierta. Acierta mucho. Saca buena nota, supera las pruebas y parece haber aprendido exactamente lo que queríamos que aprendiera. Hasta que cambia un poco el contexto y descubrimos que no estaba mirando lo que pensábamos. No había aprendido el problema, había aprendido un atajo.
El alumno que saca buena nota sin entender la materia
Imagina un niño que siempre saca diez en los exámenes de matemáticas. Todo parece ir bien. Y un día, mirándolo de cerca, descubres algo extraño: no está resolviendo los problemas. Ha aprendido que cuando el enunciado tiene tres líneas casi siempre toca sumar, que cuando aparece una tabla casi siempre toca dividir, que cuando el profesor mira de cierta manera la respuesta seguramente va por otro camino. En los exámenes habituales acierta. Si cambias un poco el formato, se hunde.
No era mal alumno. Era muy buen alumno de la pista equivocada. Y exactamente lo mismo puede pasarle a una red neuronal.
El caso de la red que no miraba los pulmones
Un equipo de investigación entrenó una red neuronal para detectar neumonía en radiografías de tórax. Le dieron miles de imágenes etiquetadas, unas con neumonía y otras sin ella, y la dejaron aprender a distinguirlas. El resultado parecía espectacular: más del 90% de aciertos en las pruebas. Comparable a un radiólogo recién terminado. Una candidata seria a asistir en hospitales reales.
Después quisieron afinar. Probaron la misma red con imágenes de otro hospital, uno que no había participado en el entrenamiento. El rendimiento cayó. Bastante. Lo suficiente como para cuestionar si tenía utilidad clínica fuera de su entorno original.
La red no se había roto. Seguía haciendo lo mismo de siempre: mirar una imagen y dar un número. Pero algo había cambiado, y la pregunta verdaderamente importante apareció entonces: ¿qué estaba mirando en realidad?
La pista escondida en la esquina
Cada hospital, cada máquina de radiología y cada manera de guardar la imagen deja pequeñas huellas en el archivo: un sello del fabricante, un patrón de ruido propio, un borde ligeramente distinto, una marca en la esquina. Un médico mira los pulmones y pasa por alto todo eso. Una red neuronal, en cambio, mira píxeles. Y si descubre que cierta firma del aparato aparece muchas veces en imágenes de pacientes enfermos, la usa como pista. No porque sea tonta. Al contrario: porque funciona.
En el conjunto de entrenamiento, los hospitales con más casos de neumonía tenían sus propias firmas en la imagen. La red descubrió, sin que nadie se lo pidiera, que esa firma era una buena predicción de "enfermo". Así que aprendió a reconocer la firma, no la enfermedad. No había aprendido neumonía. Había aprendido procedencia. Había aprendido logística. Había aprendido el atajo.
Cuando los investigadores generaron mapas de calor para ver qué píxeles habían pesado más en cada decisión, la imagen lo confirmó: la red miraba los bordes, no el centro. Miraba la firma, no el pulmón.
Acertar no siempre significa entender
Este es el punto incómodo. Cuando una IA acierta mucho, la conclusión automática es "entonces ha aprendido bien". Pero no siempre. A veces ha aprendido una relación real, profunda, útil. A veces ha aprendido una casualidad del conjunto de datos. Y a veces ha aprendido una pista que funciona solo en un entorno muy concreto, y mientras ese entorno no cambia, nadie lo nota.
El problema aparece cuando la IA se mueve a otro sitio: otros datos, otra cámara, otro hospital, otra población. El atajo deja de funcionar y el acierto se desvanece. Solo entonces se ve que aquel 90% era más frágil de lo que parecía.
Es la misma trampa que ya planteábamos en cómo comprobar una respuesta de la IA con un niño: una respuesta puede ser correcta y, a la vez, no ser una respuesta por el motivo correcto.
No pasa solo en hospitales
El patrón se repite en muchos lugares. Una red entrenada para distinguir lobos de huskies aprende, sin que nadie lo planee, a fijarse en la nieve del fondo, porque casi todas las fotos de lobos del dataset están hechas en paisajes nevados. Pásale un husky en la nieve y dirá "lobo" sin dudar. Una red entrenada para detectar lunares malignos aprende a fijarse en la regla de medir que aparece al lado en muchas fotos de lesiones malignas, porque esas lesiones iban a biopsia y el médico las medía antes. Sin regla, el modelo pierde fuelle. Durante la pandemia salieron decenas de modelos que prometían detectar covid en radiografías; una revisión de 2021 encontró que muchos en realidad distinguían adultos enfermos de niños sanos, porque las imágenes de control venían de bases de datos pediátricas anteriores a 2020. No detectaban covid. Detectaban edad.
En todos los casos pasa lo mismo: la red encuentra una pista que predice bien la etiqueta, pero no es la pista que nosotros queríamos que aprendiera. Y mientras esa pista esté en los datos, parece que el modelo entiende.
La pregunta no es solo cuánto acierta
Por eso, evaluar una IA preguntando "¿qué porcentaje saca?" es solo el principio. Hay otras preguntas igual de importantes y casi nunca se hacen en voz alta: ¿qué ha aprendido a mirar exactamente?, ¿funcionará igual con datos que no se parezcan a los del entrenamiento?, ¿qué pasa si le quitamos esa pista?, ¿está resolviendo el problema o aprovechando una señal escondida que solo existe aquí?
La diferencia entre estas preguntas y el porcentaje es enorme. Una nota alta puede esconder una comprensión pobre. Un modelo que parece brillante puede estar siguiendo un atajo que nosotros ni siquiera habíamos visto. Y como se dice en qué es el machine learning, la máquina no aprende conceptos: aprende correlaciones. Y las correlaciones, sin que nadie se entere, pueden ser cualquier cosa.
Cómo se descubre el truco
No hay una solución mágica, pero hay método. Tres ideas que se usan a diario en investigación.
- Probar en otro sitio. Si una IA funciona muy bien con los datos de siempre y mal en otro lugar, probablemente aprendió algo demasiado local. Esto se llama validación externa y es lo que delató a la red de las radiografías.
- Mirar qué mira. Hay técnicas que pintan qué zonas de la imagen han pesado más en la decisión. Si el modelo dice "neumonía" pero el mapa de atención brilla en una esquina, hay señal de alarma. Esto se llama interpretabilidad y es uno de los frentes más activos en IA hoy.
- Tapar la pista. Si sospechas que la red usa una marca, un fondo o un detalle externo, se borra y se vuelve a probar. Si el acierto se desploma, ya sabes qué estaba aprendiendo. Esta técnica se llama ablación: quitar algo a ver qué se rompe.
Las tres se aplican en el laboratorio, antes de que el modelo salga al mundo. Las que se aplican después suelen llegar tarde.
Actividad: la baraja de los dos hospitales
Para verlo en casa no hace falta una red neuronal. Bastan dos barajas parecidas. De una sacamos varias cartas de copas. De la otra sacamos varias cartas que no sean copas. Las mezclamos boca abajo y le pedimos al niño que adivine cuáles son copas mirando solo el reverso.
Al cabo de unas rondas empieza a acertar. Parece que ha entendido el problema. Pero quizá no está detectando copas. Quizá ha notado que unas cartas tienen el dorso un poco más gastado, un color ligeramente distinto o una textura diferente.
Entonces hacemos la prueba importante. Cambiamos el origen de las cartas: ahora ponemos copas de la segunda baraja y cartas que no son copas de la primera. Si el acierto se desploma, ya sabemos lo que estaba pasando. No había aprendido el palo. Había aprendido de qué baraja venía la carta.
Esa es la misma trampa que en el caso de las radiografías. Nosotros creíamos que el modelo estaba aprendiendo neumonía, pero quizá estaba aprendiendo hospital. Creíamos que miraba pulmones, pero estaba mirando procedencia.
La idea importante
Una red neuronal no aprende conceptos como una persona. Aprende patrones que le ayudan a acertar. Muchas veces esos patrones son útiles, a veces extraordinariamente útiles. Pero otras veces son atajos, y los atajos tienen un problema: funcionan mientras el mundo se parece al entrenamiento.
Por eso la pregunta importante sobre una IA no es solo cuánto acierta. La pregunta importante es por qué acierta.
Cuando una IA se equivoca de forma evidente, desconfiar es fácil. Lo difícil es detectar el error que viene escondido dentro del acierto. Ese es el sutil. El que no parece error. El que hace que una máquina saque muy buena nota mientras aprende, en silencio, justo la lección equivocada.
