¿Cómo funciona ChatGPT o Claude por dentro?

Los modelos de lenguaje como ChatGPT o Claude son redes neuronales basadas en la arquitectura Transformer, entrenadas con enormes volúmenes de texto. El proceso tiene tres fases: primero el texto se divide en tokens (fragmentos de palabras), luego cada token se convierte en un vector numérico (embedding) que codifica su significado, y finalmente el mecanismo de atención calcula qué partes del contexto son relevantes para predecir la siguiente palabra.

¿Qué son los tokens en inteligencia artificial?

Un token es la unidad mínima de texto que procesa un modelo de lenguaje. Puede ser una palabra completa, parte de una palabra o un signo de puntuación. Por ejemplo, "electromagnetismo" se divide en varios tokens, mientras que "la" es un token único. GPT-4 maneja un contexto de hasta 128.000 tokens y modelos como Gemini 1.5 llegan al millón. El coste de uso de los LLMs se mide habitualmente en precio por cada 1.000 tokens.

¿Qué son los embeddings y para qué sirven?

Los embeddings son representaciones numéricas (vectores de cientos o miles de dimensiones) que capturan el significado semántico de palabras o frases. Palabras con significados parecidos quedan cerca en ese espacio vectorial: "rey" y "reina" están próximas, igual que "París" y "capital". Permiten que el modelo entienda relaciones de sinonimia, analogías y contexto sin necesidad de reglas explícitas.

¿Qué es la temperatura en un LLM y cómo afecta las respuestas?

La temperatura es un parámetro que controla la aleatoriedad al seleccionar la siguiente palabra. Con temperatura 0 el modelo siempre elige el token más probable, dando respuestas deterministas y precisas, ideales para tareas técnicas. Con temperatura alta (0,8–1,2) el modelo explora opciones menos probables, generando texto más creativo pero menos predecible. La mayoría de interfaces de usuario utilizan valores alrededor de 0,7 como equilibrio.

¿Qué diferencia hay entre un LLM y una IA tradicional de reglas?

Los sistemas de IA tradicionales siguen reglas explícitas escritas por humanos (si X entonces Y), lo que los hace predecibles pero rígidos. Los LLMs aprenden patrones estadísticos de millones de textos sin que nadie les programe reglas de gramática o conocimiento del mundo. Esto les permite generalizar a situaciones nunca vistas, pero también cometer errores imprevisibles ("alucinaciones") cuando el patrón estadístico no coincide con la realidad.

Cómo Funcionan los LLMs - Tokens, Embeddings, Atención y Temperatura

Tokenización — Cómo el modelo "lee" el texto

El modelo no ve letras ni palabras: divide el texto en "tokens" (fragmentos de palabras).

Hola,▪soy▪un▪modelo▪de▪lenguaje▪grande

14tokens

38caracteres

~$0.00014coste GPT-4 input

1 token ≈ 0,75 palabras en inglés

1 token ≈ 0,5 palabras en español

GPT-4: 128.000 tokens de context window

128k tokens ≈ 300 páginas de libro

El modelo nunca ve texto crudo: todo se convierte a IDs numéricos de tokens. "ChatGPT" puede ser 1 token en inglés pero 2 en otros idiomas.

Embeddings — El espacio semántico

Cada palabra se representa como un punto en un espacio de miles de dimensiones. Palabras similares quedan cerca. Haz clic en cualquier palabra.

AnimalesColoresVerbosComidaRoyalty

Rey − Hombre + Mujer ≈ Reina: en el espacio vectorial, la dirección que va de "hombre" a "mujer" es la misma que va de "rey" a "reina". Esto es aritmética vectorial sobre el espacio semántico — no magia, matemáticas.

Mecanismo de atención — Transformers

La atención permite al modelo saber qué palabras son relevantes para entender cada token. Haz clic en un token para ver a qué presta atención.

Contexto:

Atención desde "banco":

banco

está

cerca

del

río

90%

20%

10%

banco

20%

80%

30%

50%

40%

90%

está

10%

30%

70%

60%

20%

cerca

10%

50%

60%

80%

50%

40%

del

10%

40%

20%

50%

70%

60%

río

10%

90%

20%

40%

60%

90%

"banco" atiende fuertemente a "río" y "cerca" → el modelo infiere que es un asiento junto al río.

96capas de atención en GPT-4

96cabezas por capa

9.216mecanismos de atención en paralelo

Temperatura — Creatividad vs. Coherencia

Dado el prompt "El cielo es...", la temperatura determina cuán predecible es la respuesta.

Frío (predecible) Caliente (creativo/caótico)

T = 1.0Equilibrado — estándar para chatbots

Distribución de probabilidad para la siguiente palabra tras "El cielo es...":

azul

40%

gris

25%

naranja

15%

nublado

10%

oscuro

10%

Texto generado:

El cielo es...

Parámetros avanzados — top-p, frequency y presence penalty

Además de la temperatura, hay tres parámetros que controlan la diversidad y la repetición. Ajústalos para ver su efecto.

top-p (nucleus sampling)0.90

Solo considera las palabras cuya probabilidad acumulada (de mayor a menor) no supera este valor. Las palabras fuera del núcleo quedan excluidas sin importar su probabilidad individual.

0.1 — solo la más probable0.9 — estándar1.0 — todas

Distribución actual (temperatura 1.0) — palabras en el núcleo marcadas:

azul

40%✓ núcleo

gris

25%✓ núcleo

naranja

15%✓ núcleo

nublado

10%✓ núcleo

oscuro

10%✗ fuera

Normalmente se ajusta temperature O top-p, no los dos a la vez. Combinarlos puede producir resultados impredecibles.

frequency_penalty0.0

Reduce la probabilidad de cada palabra proporcionalmente a cuántas veces ya apareció en el texto generado.

0 sin efecto2 máximo

presence_penalty0.0

Penaliza palabras que ya aparecieron al menos una vez, sin importar cuántas. Favorece nuevos temas.

0 sin efecto2 máximo

❌ Sin penalización — repetición frecuente

“El modelo respondió. La respuesta del modelo fue larga. El modelo siguió respondiendo y la respuesta del modelo continuó repitiéndose sin variación.”

Configuraciones recomendadas por caso de uso

Tarea	temperature	top-p	freq_pen	pres_pen	Por qué
Código / SQL	0.1	0.9	0	0	Máxima precisión, sin creatividad
Preguntas factuales	0.0	—	0	0	Totalmente determinista
Emails profesionales	0.5	0.9	0.1	0	Coherente y sin repeticiones
Redacción creativa	0.9	0.95	0.3	0.1	Variedad sin caos
Brainstorming / ideas	1.2	0.95	0.5	0.3	Máxima diversidad temática
Chatbot conversacional	0.7	0.9	0.1	0.1	Natural y variado

¿Qué es un LLM?

Un Large Language Model (Modelo de Lenguaje Grande) es una red neuronal entrenada con cantidades masivas de texto para predecir el siguiente token dado un contexto. GPT-4 tiene estimados ~1,8 billones de parámetros. Claude 3 Opus tiene una escala similar. Estos parámetros son ajustes numéricos (pesos) que la red aprende durante el entrenamiento.

Pre-entrenamiento vs Fine-tuning vs RLHF

Pre-entrenamiento: El modelo aprende a predecir el siguiente token en billones de palabras extraídas de internet, libros y código. Esto le da conocimiento del mundo y del lenguaje. Puede tardar meses en clusters de miles de GPUs.
Fine-tuning: El modelo pre-entrenado se ajusta con datos específicos (ej: diálogos de asistente-usuario) para que responda de forma útil en lugar de completar texto aleatoriamente.
RLHF (Aprendizaje por Refuerzo con Retroalimentación Humana): Evaluadores humanos puntúan respuestas del modelo. Un modelo de recompensa aprende esas preferencias y guía al LLM hacia respuestas más útiles, honestas y seguras.

Context window: ¿qué es y por qué importa?

El context window es la cantidad máxima de texto que el modelo puede "recordar" en una conversación. GPT-4 Turbo: 128.000 tokens (~300 páginas). Claude 3: 200.000 tokens (~500 páginas). Gemini 1.5 Pro: 1 millón de tokens (~2.500 páginas). Fuera del context window, el modelo olvida completamente lo que ocurrió antes. No tiene memoria persistente entre conversaciones (a menos que se implemente externamente).

Alucinaciones: ¿por qué los LLMs inventan cosas?

Los LLMs no son bases de datos ni buscadores. Generan texto token a token buscando la continuación más probable según su entrenamiento. Si el modelo no sabe algo, puede generar una respuesta "plausible" que no es verdad. Esto ocurre porque el objetivo del entrenamiento es predecir texto humano, no verificar hechos. Técnicas como RAG (Retrieval-Augmented Generation) conectan el modelo a bases de datos externas para reducir alucinaciones.

Diferencia entre Claude, ChatGPT y Gemini

ChatGPT (OpenAI): Basado en GPT-4. Primer chatbot masivo (noviembre 2022). Enfoque en utilidad general. Integración con DALL-E, Code Interpreter y plugins.
Claude (Anthropic): Diseñado con énfasis en seguridad (Constitutional AI). Context window muy largo. Mayor coherencia en textos extensos y menos alucinaciones en algunos benchmarks.
Gemini (Google DeepMind): Nativo multimodal desde el diseño (texto, imágenes, audio). Integrado con el ecosistema Google (búsqueda, Workspace).

¿Qué NO saben hacer los LLMs?

Aritmética precisa sin herramientas: 347 × 829 puede dar un resultado incorrecto si no usa una calculadora.
Razonamiento simbólico formal: La lógica matemática rigurosa y las demostraciones formales son difíciles sin andamiaje externo.
Acceder a información en tiempo real: Tienen fecha de corte de entrenamiento (salvo que usen búsqueda web).
Recordar conversaciones pasadas: Sin memoria externa, cada conversación empieza desde cero.
Contar letras con fiabilidad: Preguntar "¿cuántas 'r' tiene 'strawberry'?" puede dar respuestas incorrectas.

Conexión con la computación cuántica

Los investigadores exploran si los ordenadores cuánticos podrían acelerar el entrenamiento de LLMs en el futuro. Por ahora, los LLMs se entrenan en chips clásicos (GPUs/TPUs). La computación cuántica podría ayudar con la optimización de los parámetros, aunque esto aún está en fase teórica y de investigación temprana.

🔗Apps relacionadas

🔤Tokenizador VisualCuenta los tokens de tu texto y calcula el coste de API 🌳Árbol de DecisiónVisualiza cómo una máquina aprende a clasificar datos 🧠IA y Redes NeuronalesLas redes que hacen posibles los transformers 🧱Constructor de PromptsCrea instrucciones efectivas para cualquier LLM

Tarea

temperature

top-p

freq_pen

pres_pen

Por qué

Código / SQL

0.1

0.9

Máxima precisión, sin creatividad

Preguntas factuales

0.0

—

Totalmente determinista

Emails profesionales

0.5

0.9

0.1

Coherente y sin repeticiones

Redacción creativa

0.9

0.95

0.3

0.1

Variedad sin caos

Brainstorming / ideas

1.2

0.95

0.5

0.3

Máxima diversidad temática

Chatbot conversacional

0.7

0.9

0.1