Tokenización — Cómo el modelo "lee" el texto
El modelo no ve letras ni palabras: divide el texto en "tokens" (fragmentos de palabras).
Embeddings — El espacio semántico
Cada palabra se representa como un punto en un espacio de miles de dimensiones. Palabras similares quedan cerca. Haz clic en cualquier palabra.
Mecanismo de atención — Transformers
La atención permite al modelo saber qué palabras son relevantes para entender cada token. Haz clic en un token para ver a qué presta atención.
Atención desde "banco":
Temperatura — Creatividad vs. Coherencia
Dado el prompt "El cielo es...", la temperatura determina cuán predecible es la respuesta.
Distribución de probabilidad para la siguiente palabra tras "El cielo es...":
Texto generado:
El cielo es...
Parámetros avanzados — top-p, frequency y presence penalty
Además de la temperatura, hay tres parámetros que controlan la diversidad y la repetición. Ajústalos para ver su efecto.
Solo considera las palabras cuya probabilidad acumulada (de mayor a menor) no supera este valor. Las palabras fuera del núcleo quedan excluidas sin importar su probabilidad individual.
Distribución actual (temperatura 1.0) — palabras en el núcleo marcadas:
Reduce la probabilidad de cada palabra proporcionalmente a cuántas veces ya apareció en el texto generado.
Penaliza palabras que ya aparecieron al menos una vez, sin importar cuántas. Favorece nuevos temas.
❌ Sin penalización — repetición frecuente
“El modelo respondió. La respuesta del modelo fue larga. El modelo siguió respondiendo y la respuesta del modelo continuó repitiéndose sin variación.”
Configuraciones recomendadas por caso de uso
| Tarea | temperature | top-p | freq_pen | pres_pen | Por qué |
|---|---|---|---|---|---|
| Código / SQL | 0.1 | 0.9 | 0 | 0 | Máxima precisión, sin creatividad |
| Preguntas factuales | 0.0 | — | 0 | 0 | Totalmente determinista |
| Emails profesionales | 0.5 | 0.9 | 0.1 | 0 | Coherente y sin repeticiones |
| Redacción creativa | 0.9 | 0.95 | 0.3 | 0.1 | Variedad sin caos |
| Brainstorming / ideas | 1.2 | 0.95 | 0.5 | 0.3 | Máxima diversidad temática |
| Chatbot conversacional | 0.7 | 0.9 | 0.1 | 0.1 | Natural y variado |
Cómo funcionan los LLMs — Guía completa
Pre-entrenamiento, RLHF, alucinaciones y la diferencia entre modelos
¿Qué es un LLM?
Un Large Language Model (Modelo de Lenguaje Grande) es una red neuronal entrenada con cantidades masivas de texto para predecir el siguiente token dado un contexto. GPT-4 tiene estimados ~1,8 billones de parámetros. Claude 3 Opus tiene una escala similar. Estos parámetros son ajustes numéricos (pesos) que la red aprende durante el entrenamiento.
Pre-entrenamiento vs Fine-tuning vs RLHF
- Pre-entrenamiento: El modelo aprende a predecir el siguiente token en billones de palabras extraídas de internet, libros y código. Esto le da conocimiento del mundo y del lenguaje. Puede tardar meses en clusters de miles de GPUs.
- Fine-tuning: El modelo pre-entrenado se ajusta con datos específicos (ej: diálogos de asistente-usuario) para que responda de forma útil en lugar de completar texto aleatoriamente.
- RLHF (Aprendizaje por Refuerzo con Retroalimentación Humana): Evaluadores humanos puntúan respuestas del modelo. Un modelo de recompensa aprende esas preferencias y guía al LLM hacia respuestas más útiles, honestas y seguras.
Context window: ¿qué es y por qué importa?
El context window es la cantidad máxima de texto que el modelo puede "recordar" en una conversación. GPT-4 Turbo: 128.000 tokens (~300 páginas). Claude 3: 200.000 tokens (~500 páginas). Gemini 1.5 Pro: 1 millón de tokens (~2.500 páginas). Fuera del context window, el modelo olvida completamente lo que ocurrió antes. No tiene memoria persistente entre conversaciones (a menos que se implemente externamente).
Alucinaciones: ¿por qué los LLMs inventan cosas?
Los LLMs no son bases de datos ni buscadores. Generan texto token a token buscando la continuación más probable según su entrenamiento. Si el modelo no sabe algo, puede generar una respuesta "plausible" que no es verdad. Esto ocurre porque el objetivo del entrenamiento es predecir texto humano, no verificar hechos. Técnicas como RAG (Retrieval-Augmented Generation) conectan el modelo a bases de datos externas para reducir alucinaciones.
Diferencia entre Claude, ChatGPT y Gemini
- ChatGPT (OpenAI): Basado en GPT-4. Primer chatbot masivo (noviembre 2022). Enfoque en utilidad general. Integración con DALL-E, Code Interpreter y plugins.
- Claude (Anthropic): Diseñado con énfasis en seguridad (Constitutional AI). Context window muy largo. Mayor coherencia en textos extensos y menos alucinaciones en algunos benchmarks.
- Gemini (Google DeepMind): Nativo multimodal desde el diseño (texto, imágenes, audio). Integrado con el ecosistema Google (búsqueda, Workspace).
¿Qué NO saben hacer los LLMs?
- Aritmética precisa sin herramientas: 347 × 829 puede dar un resultado incorrecto si no usa una calculadora.
- Razonamiento simbólico formal: La lógica matemática rigurosa y las demostraciones formales son difíciles sin andamiaje externo.
- Acceder a información en tiempo real: Tienen fecha de corte de entrenamiento (salvo que usen búsqueda web).
- Recordar conversaciones pasadas: Sin memoria externa, cada conversación empieza desde cero.
- Contar letras con fiabilidad: Preguntar "¿cuántas 'r' tiene 'strawberry'?" puede dar respuestas incorrectas.
Conexión con la computación cuántica
Los investigadores exploran si los ordenadores cuánticos podrían acelerar el entrenamiento de LLMs en el futuro. Por ahora, los LLMs se entrenan en chips clásicos (GPUs/TPUs). La computación cuántica podría ayudar con la optimización de los parámetros, aunque esto aún está en fase teórica y de investigación temprana.