¿Qué significa realmente el p-valor en un test estadístico?

El p-valor es la probabilidad de obtener un resultado tan extremo como el observado (o más) asumiendo que la hipótesis nula es verdadera. Un p = 0,03 significa que, si no hubiera efecto real, habría un 3% de probabilidad de ver datos tan extremos por azar. Lo que NO significa: no es la probabilidad de que la hipótesis nula sea verdadera, ni la probabilidad de que el resultado se replique, ni una medida del tamaño del efecto.

¿Qué son los errores tipo I y tipo II en estadística?

El error tipo I (falso positivo) ocurre cuando se rechaza la hipótesis nula siendo verdadera; su probabilidad es α (nivel de significación, habitualmente 0,05). El error tipo II (falso negativo) ocurre cuando no se rechaza la hipótesis nula siendo falsa; su probabilidad es β. Ambos errores están relacionados: reducir α (ser más exigente) aumenta β. La potencia estadística (1 − β) mide la capacidad del test para detectar un efecto real cuando existe.

¿Por qué p < 0,05 no es suficiente para concluir que un resultado es significativo?

El umbral p < 0,05 es una convención arbitraria establecida por Fisher, no una barrera con significado biológico o práctico. Con muestras grandes, diferencias triviales pueden producir p muy pequeños. Además, si se realizan muchas comparaciones simultáneas (problema de comparaciones múltiples), el 5% de ellas producirá p < 0,05 por azar puro. Por eso, la estadística moderna exige también reportar el tamaño del efecto, el intervalo de confianza y la potencia del test.

¿Qué es un intervalo de confianza del 95% y cómo se interpreta?

Un intervalo de confianza del 95% (IC95%) es un rango calculado a partir de los datos de la muestra de tal modo que, si repitiéramos el experimento muchas veces, el 95% de los intervalos calculados contendrían el verdadero parámetro poblacional. Un error frecuente es pensar que hay un 95% de probabilidad de que el parámetro esté dentro del intervalo concreto obtenido; en realidad, el parámetro es fijo y el intervalo es el que varía entre muestras.

¿Para qué nivel de estudios está pensado este visualizador de estadística inferencial?

Es especialmente útil para estudiantes de últimos años de grado y máster en ciencias, ingeniería, medicina, psicología, economía o cualquier disciplina que use tests estadísticos. También es valioso para investigadores que trabajan con datos pero no tienen formación estadística formal, y para quienes quieran entender de forma intuitiva por qué la crisis de replicación en ciencia está relacionada con el mal uso del p-valor.

Estadística Inferencial: p-valor, Errores Tipo I/II e Intervalos de Confianza

El p-valor

Mueve el slider para cambiar el valor del estadístico de contraste z. Observa en tiempo real cómo cambia el p-valor y cuándo se rechaza H₀.

Estadístico z (valor del test)z = 1.50

P-valor0.134

Nivel α0.05

DecisiónNo rechazar H₀

p = 0.134 — Por encima de 0.05. No hay evidencia suficiente para rechazar H₀.

Cuidado con el malentendido más común: El p-valor no es la probabilidad de que H₀ sea cierta. Es la probabilidad de observar estos datos (o más extremos) suponiendo que H₀ fuera cierta. Esta confusión ha generado miles de estudios irreproducibles.

Inferencia estadística vs. descriptiva

La estadística descriptiva resume lo que ya tenemos (media, mediana, varianza de nuestra muestra). La estadística inferencial da el salto: a partir de una muestra, intenta sacar conclusiones sobre la población completa. Ese salto siempre conlleva incertidumbre, y los tests de hipótesis son la forma de cuantificarla.

H₀ y H₁: las dos hipótesis

La hipótesis nula H₀es siempre la del “no efecto”: “no hay diferencia entre grupos”, “el coeficiente es cero”, “la proporción es 0.5”. La hipótesis alternativa H₁ es lo que el investigador quiere demostrar. El test de hipótesis pregunta: ¿son los datos compatibles con H₀, o son tan extremos que hacen dudar de ella?

El p-valor: qué es y qué NO es

El p-valor es la probabilidad de obtener un resultado igual o más extremo que el observado, asumiendo que H₀ es cierta. Un p-valor pequeño (p.ej., p=0.02) significa que si H₀ fuera cierta, veríamos estos datos solo el 2% de las veces.

Tres malentendidos frecuentes:

Error 1:“p=0.03 significa que hay 3% de probabilidad de que H₀ sea cierta.” — Falso. El p-valor no dice nada sobre la probabilidad de que H₀ sea verdad.
Error 2:“p<0.05 significa que el efecto es grande o importante.” — Falso. Con n suficientemente grande, cualquier diferencia mínima produce p<0.05.
Error 3:“p=0.06 significa que casi hay efecto.” — Falso. 0.06 y 0.05 son prácticamente lo mismo; el umbral 0.05 es una convención arbitraria.

Nivel de significación α: ¿por qué 0.05?

Ronald Fisher propuso α=0.05 en 1925 como umbral de conveniencia, no como ley científica. El nivel α es la tasa de error tipo I que estamos dispuestos a tolerar: si usamos α=0.05, rechazaremos H₀ incorrectamente el 5% de las veces, incluso cuando H₀ sea verdad. Algunos campos (física de partículas) exigen α=0.0000003 (5 sigmas) para declarar un descubrimiento.

Errores tipo I y tipo II: el trade-off inevitable

Si reducimos α para evitar falsos positivos (error tipo I), automáticamente aumentamos la tasa de falsos negativos (error tipo II). No podemos eliminar ambos a la vez con el mismo n. La única forma de reducir ambos simultáneamente es aumentar el tamaño muestral n.

Error tipo I (α): rechazar H₀ cuando es verdadera (falso positivo)
Error tipo II (β): no rechazar H₀ cuando es falsa (falso negativo)
Potencia (1-β): detectar el efecto cuando existe

Intervalos de confianza: la interpretación correcta

Un IC del 95% nosignifica: “hay 95% de probabilidad de que el parámetro esté en este intervalo”. El parámetro es un valor fijo (no aleatorio); el intervalo es aleatorio porque depende de la muestra.

La interpretación correcta es frecuentista: si repitiéramos el mismo experimento infinitas veces y construyéramos un IC del 95% en cada ocasión, el 95% de esos intervalos capturarían el parámetro real. Una vez calculado el IC, o lo captura o no lo captura.

La crisis de replicación en ciencia

En 2015, el Reproducibility Project intentó replicar 100 estudios publicados en psicología. Solo el 39% obtuvo resultados similares. Las causas principales:

p-hacking: probar múltiples hipótesis hasta encontrar p<0.05
HARKing: formular la hipótesis después de ver los datos
Baja potencia: muestras demasiado pequeñas que solo detectan efectos grandes
Sesgo de publicación: los resultados positivos se publican más que los negativos

La solución no es abandonar los tests estadísticos, sino complementarlos con tamaños del efecto, intervalos de confianza amplios, pre-registro de hipótesis y mayor transparencia metodológica.

El error más costoso en ciencia:“El p-valor no dice la probabilidad de que H₀ sea cierta. Es la probabilidad de obtener estos datos (o más extremos) SI H₀ fuera cierta.” Esta confusión, extendida entre investigadores, estudiantes y medios de comunicación, ha generado miles de estudios irreproducibles y décadas de resultados científicos que no sobrevivieron a la replicación.

El p-valor

Mueve el slider para cambiar el valor del estadístico de contraste z. Observa en tiempo real cómo cambia el p-valor y cuándo se rechaza H₀.

Estadístico z (valor del test)z = 1.50

P-valor0.134

Nivel α0.05

DecisiónNo rechazar H₀

p = 0.134 — Por encima de 0.05. No hay evidencia suficiente para rechazar H₀.

Estadística Inferencial

El p-valor