El diccionario secreto de la IA

El otro día, con prisa, le pedí a una IA: "explícame qué es un embeding" (así, con la errata) y me respondió como si nada, sin pedirme que la repitiera. Y sin embargo, si a esa misma IA le pides que cuente cuántas letras tiene "murciélago", es capaz de fallar en algo que cualquier niño de cinco años hace bien.
¿Cómo puede una máquina que solo sabe de números entender una palabra mal escrita y, a la vez, equivocarse contando letras? La respuesta dice mucho sobre cómo "ve" el lenguaje una IA. Y no se parece en nada a como lo vemos nosotros.
El diccionario parece ordenado, pero no lo es tanto
Un diccionario parece un lugar ordenado. Buscas una palabra y encuentras su definición. Pero si miras un poco más despacio, pasa algo curioso: las palabras se explican con otras palabras.
Si buscas "casa", la definición usa la palabra "edificio". Si buscas "edificio", se define con "construcción". Y si buscas "construcción", aparecen "acción", "obra" o "fabricar". Y si sigues tirando del hilo, nunca tocas suelo: no hay una palabra final que se explique sola, sin pedirles el significado a las demás. Tarde o temprano una definición te devuelve a otra que ya habías visto. Las palabras se sostienen unas a otras, en círculo.
Y no hay puerta de salida: hasta las palabras con las que hablamos de las palabras ("significado", "sentido", "matiz") están hechas de lo mismo, y habría que explicarlas con otras. Para hablar del lenguaje solo tenemos… más lenguaje.
El lenguaje es una red, no una escalera
El lenguaje no es una estructura limpia donde cada palabra tiene un significado fijo y un lugar exacto. "Casa" no significa exactamente lo mismo que "hogar", aunque compartan espacio. "Barato" puede sonar bien o mal según la situación. Y "libre" no quiere decir lo mismo para un niño que acaba de terminar los deberes que para alguien que habla de política.
El lenguaje es difuso. Y ese es el problema de verdad para un ordenador, porque un ordenador no trabaja bien con la ambigüedad. No puede operar directamente con matices, tonos ni recuerdos humanos. Trabaja con números.
Del diccionario al mapa
El diccionario intenta responder a una pregunta sencilla: ¿qué significa esta palabra? Pero para una máquina esa pregunta es un callejón sin salida: no le sirve de nada tener texto que explica más texto.
Así que el ordenador cambia de pregunta. En vez de ¿qué significa?, se pregunta: ¿cerca de qué otras palabras vive esta palabra cuando se usa?
Piensa en tres definiciones de diccionario:
- Gato: mamífero doméstico de la familia de los félidos…
- Perro: mamífero doméstico de la familia de los cánidos…
- Conejo: mamífero lagomorfo…
Tú las lees y enseguida notas que las tres se parecen. Pero para el ordenador, comparar "gato" y "perro" mirando las letras no lleva a ninguna parte. Necesita una posición, una distancia, una dirección. Para poder calcular con palabras, primero hay que convertir sus relaciones en números.
Y no basta con que dos palabras parecidas queden cerca. La cercanía tiene que ser operable (algo que se pueda medir, sumar y restar) y que, al hacer esas operaciones, el resultado siga teniendo sentido y no caiga en cualquier parte. Y el mapa tiene que ser rico: capaz de guardar matices, de aguantar una errata sin perderse y de dejar que el contexto decida qué significado vale en cada caso. Y, como todo mapa, no será exacto: el mapa nunca es el territorio, igual que un plano del metro no es la ciudad. Pero, bien trazado, basta para orientarse, decidir trasbordos o estimar el tiempo que me llevará llegar. Eso es lo que buscamos con las palabras: un mapa que, sin ser el significado de verdad, se pueda operar.
Qué es un embedding
Ahí entran los embeddings. Un embedding es una representación numérica que coloca palabras, frases o ideas como puntos en un espacio, en un mapa. Las palabras que aparecen en contextos parecidos acaban cerca unas de otras.
No porque el ordenador "sepa" qué es un gato, con sus bigotes y su ronroneo. Sino porque ha visto millones de veces cómo se usa la palabra "gato" en textos, y ha calculado que esos usos se parecen muchísimo más a los de "perro" que a los de "tornillo".
El significado no aparece como una definición. Aparece como una posición en una red de usos.
Sumar y restar significados
Si las palabras son puntos en un mapa, entre dos puntos hay una dirección. Y aquí pasa algo que parece magia: esas direcciones significan algo.
El camino que va de "hombre" a "mujer" resulta ser casi el mismo que va de "rey" a "reina", o de "actor" a "actriz". Es como si en el mapa existiera una dirección "cambiar de género", y al recorrerla desde cualquier palabra cayeras en su pareja. Lo mismo pasa con la dirección que lleva de un país a su capital, o de un verbo en presente al mismo en pasado.
Tanto, que se puede hacer una cuenta de apariencia absurda y que salga bien:
rey − hombre + mujer ≈ reina
Partes de "rey", le restas lo que tiene de "hombre", le sumas lo que tiene de "mujer", y caes cerquísima de "reina". No porque el ordenador sepa qué es un rey, sino porque ha colocado los usos de esas palabras de modo que sus distancias y direcciones guardan esas relaciones. El significado, convertido en posiciones, se puede sumar y restar como si fueran flechas en un mapa.
Antes del mapa: cortar el texto en piezas
Hasta aquí he hablado de palabras, porque es la forma más fácil de entender la idea. Pero una IA no siempre trabaja con palabras enteras. Y aquí está la mitad de la respuesta a la errata del principio.
Antes de colocar nada en el mapa, el texto se corta en piezas. A veces una pieza es una palabra entera, como "gato". Otras veces es un trozo de palabra. Otras, un signo, un espacio o una combinación de letras que aparece mucho. A esas piezas se las suele llamar tokens.
¿Por qué no ir letra a letra, que es lo más pequeño? Porque sería lentísimo y muchas relaciones se perderían en migas demasiado finas. ¿Y por qué no ir siempre palabra a palabra? Porque el idioma está lleno de palabras nuevas, nombres propios, erratas, plurales y conjugaciones que quizá no estaban en la lista. Así que muchos modelos usan un punto intermedio: piezas más pequeñas que algunas palabras, pero más grandes que una sola letra. Una palabra larga como "extraordinario" podría llegar partida en algo parecido a extra · ordin · ario.
Eso explica por qué te entendió la errata. Si escribes "gatp" en vez de "gato", la IA no depende de que esa palabra exacta exista: mira las piezas, lo que hay alrededor y las relaciones, y reconstruye lo que querías decir. No lee buscando la palabra perfecta; lee buscando el sentido más cercano.
Pero también explica un fallo que desconcierta a todo el mundo. Si le pides que cuente las letras de "murciélago", puede equivocarse. Para ti es fácil: las miras una a una. Para la IA, esa palabra quizá llegó partida en piezas que no coinciden con las letras que tú ves. Las letras están ahí, claro, igual que una manzana está hecha de átomos. Pero no la percibe a esa escala. Es como pedirle a alguien que cuente los átomos de la manzana que tiene en la mano: técnicamente están, pero esa no es la escala a la que mira el mundo. Puede intentarlo, e incluso acertar a veces, pero no es su forma natural de ver el texto.
Cuando una palabra vive en varios barrios
El mapa, aun así, tiene un límite. Algunas palabras son nómadas y viven en varios barrios a la vez. "Banco" vive en el barrio del parque y en el del dinero. "Ratón" vive en el de los animales y en el de los ordenadores. "Planta" vive en el de las macetas, el de los edificios y el de las fábricas.
Si le damos un único punto fijo a cada palabra, el mapa falla. Por eso los modelos de hoy no colocan la palabra sola: la colocan mirando la frase entera. Según quién la acompañe en ese momento, la sitúan en un barrio o en otro.
El contexto no adorna el significado. Lo decide.
Cómo esto permite escribir a una IA
¿Cómo redacta entonces una máquina, si por dentro solo tiene datos y operaciones? Lo hace traduciendo mundos:
- Corta el texto en piezas.
- Convierte cada pieza en números.
- Coloca esos números en un espacio de relaciones.
- Opera matemáticamente con esas distancias.
- Calcula qué pieza tiene sentido que venga después.
- Vuelve a convertir esas piezas en palabras que podemos leer.
Por eso una IA maneja erratas, aproximaciones y matices mucho mejor de lo que esperaríamos de una máquina que "solo cuenta símbolos". Y por eso, a la vez, falla en tareas que a nosotros nos parecen tontas, como contar letras exactas: nosotros vemos la palabra escrita; ella trabaja con piezas y relaciones.
La idea importante
Un embedding no es el significado de una palabra. Es su sitio en un mapa de usos: unos cuantos números que dicen junto a qué otras palabras aparece, y con los que, por ser números, sí se puede calcular. Y en los modelos modernos ni siquiera trabajamos siempre con palabras enteras, sino con piezas de texto que el sistema puede mover, comparar y combinar.
La IA no escribe porque tenga un diccionario perfecto dentro. Escribe porque ha aprendido un mapa enorme de relaciones, patrones y estructuras en los usos de nuestro lenguaje. Por eso puede pasar de un idioma a otro, o imitar un estilo, como contar algo a la manera de una crónica medieval o de un parte del tiempo: no recita palabras, recorre patrones.
Ese mapa no entiende como una persona. Pero le permite hacer cuentas con algo tan difuso como las palabras.
Y ese mapa puedes verlo construirse tú mismo: pega cualquier texto en El mapa de las palabras y mira cómo el ordenador agrupa solo, sin entender nada, las palabras que aparecen juntas.
