Entrena una red

En el artículo sobre redes neuronales vimos la pieza por dentro: unidades simples que multiplican, suman y se encienden. Aquí vamos a verla haciendo algo.

La red no sabe jugar al dilema del prisionero. Empieza con números al azar: mira las últimas jugadas del rival, las pasa por sus neuronas y decide una acción, cooperar o traicionar.

No le damos ninguna etiqueta que diga "esta era la jugada correcta". Le dejamos jugar muchas partidas contra estrategias conocidas y miramos su puntuación: las versiones que puntúan mejor se conservan, se mezclan o se modifican un poco; las que puntúan peor desaparecen. Generación tras generación, la red encuentra una forma de jugar mejor. No porque entienda la confianza, sino porque algunas combinaciones de pesos funcionan mejor que otras en el entorno donde la hemos entrenado.

Mientras entrenas, fíjate en tres cosas

Contra quién entrena. No aprende "a jugar bien" en abstracto: aprende a jugar bien contra esos rivales.
Qué pasa si das más importancia a un rival. La red puede especializarse en ganarle a ese y volverse peor contra los demás.
Qué ocurre al llevarla al torneo. Una estrategia que entrena muy bien en un entorno puede fallar cuando cambia el contexto.

La red no aprende "lo correcto". Aprende lo que da puntos en el contexto donde la entrenas.

Parámetros del entrenamiento

Capas internas: Neuronas por capa: Generaciones:

Parámetros avanzados

Redes en paralelo: Cambio aleatorio (%): Rondas por partida: Partidas por rival:

Contra quién entrena

La red juega contra estos rivales y su puntuación es la media de los puntos por ronda que obtiene. La columna de la derecha es la importancia de cada rival: 0 lo ignora, 10 lo prioriza al máximo. Si pones más importancia a un rival, la red se especializa en ganarle a ese.

Rivales con jugadas fijas

Aquí defines un rival escribiendo qué jugada hace en cada ronda: una cadena de 10 letras donde cada letra indica una estrategia clásica. Por ejemplo ABABABABAB alterna entre las dos primeras. Si la partida dura más de 10 rondas la secuencia se repite.

La red que ha salido

Los círculos son las neuronas (5 entradas que miran las últimas jugadas del rival, 3 internas, 1 salida). Las líneas son los pesos: azul empuja la decisión hacia "traicionar" si el dato es 1, roja la empuja hacia "cooperar". Cuanto más gruesa, más influye ese peso.

Código resultante