El p-valor
Mueve el slider para cambiar el valor del estadístico de contraste z. Observa en tiempo real cómo cambia el p-valor y cuándo se rechaza H₀.
Guía de Estadística Inferencial
Conceptos fundamentales de inferencia estadística: p-valor, errores tipo I/II, intervalos de confianza y potencia
Inferencia estadística vs. descriptiva
La estadística descriptiva resume lo que ya tenemos (media, mediana, varianza de nuestra muestra). La estadística inferencial da el salto: a partir de una muestra, intenta sacar conclusiones sobre la población completa. Ese salto siempre conlleva incertidumbre, y los tests de hipótesis son la forma de cuantificarla.
H₀ y H₁: las dos hipótesis
La hipótesis nula H₀es siempre la del “no efecto”: “no hay diferencia entre grupos”, “el coeficiente es cero”, “la proporción es 0.5”. La hipótesis alternativa H₁ es lo que el investigador quiere demostrar. El test de hipótesis pregunta: ¿son los datos compatibles con H₀, o son tan extremos que hacen dudar de ella?
El p-valor: qué es y qué NO es
El p-valor es la probabilidad de obtener un resultado igual o más extremo que el observado, asumiendo que H₀ es cierta. Un p-valor pequeño (p.ej., p=0.02) significa que si H₀ fuera cierta, veríamos estos datos solo el 2% de las veces.
Tres malentendidos frecuentes:
- Error 1:“p=0.03 significa que hay 3% de probabilidad de que H₀ sea cierta.” — Falso. El p-valor no dice nada sobre la probabilidad de que H₀ sea verdad.
- Error 2:“p<0.05 significa que el efecto es grande o importante.” — Falso. Con n suficientemente grande, cualquier diferencia mínima produce p<0.05.
- Error 3:“p=0.06 significa que casi hay efecto.” — Falso. 0.06 y 0.05 son prácticamente lo mismo; el umbral 0.05 es una convención arbitraria.
Nivel de significación α: ¿por qué 0.05?
Ronald Fisher propuso α=0.05 en 1925 como umbral de conveniencia, no como ley científica. El nivel α es la tasa de error tipo I que estamos dispuestos a tolerar: si usamos α=0.05, rechazaremos H₀ incorrectamente el 5% de las veces, incluso cuando H₀ sea verdad. Algunos campos (física de partículas) exigen α=0.0000003 (5 sigmas) para declarar un descubrimiento.
Errores tipo I y tipo II: el trade-off inevitable
Si reducimos α para evitar falsos positivos (error tipo I), automáticamente aumentamos la tasa de falsos negativos (error tipo II). No podemos eliminar ambos a la vez con el mismo n. La única forma de reducir ambos simultáneamente es aumentar el tamaño muestral n.
- Error tipo I (α): rechazar H₀ cuando es verdadera (falso positivo)
- Error tipo II (β): no rechazar H₀ cuando es falsa (falso negativo)
- Potencia (1-β): detectar el efecto cuando existe
Intervalos de confianza: la interpretación correcta
Un IC del 95% nosignifica: “hay 95% de probabilidad de que el parámetro esté en este intervalo”. El parámetro es un valor fijo (no aleatorio); el intervalo es aleatorio porque depende de la muestra.
La interpretación correcta es frecuentista: si repitiéramos el mismo experimento infinitas veces y construyéramos un IC del 95% en cada ocasión, el 95% de esos intervalos capturarían el parámetro real. Una vez calculado el IC, o lo captura o no lo captura.
La crisis de replicación en ciencia
En 2015, el Reproducibility Project intentó replicar 100 estudios publicados en psicología. Solo el 39% obtuvo resultados similares. Las causas principales:
- p-hacking: probar múltiples hipótesis hasta encontrar p<0.05
- HARKing: formular la hipótesis después de ver los datos
- Baja potencia: muestras demasiado pequeñas que solo detectan efectos grandes
- Sesgo de publicación: los resultados positivos se publican más que los negativos
La solución no es abandonar los tests estadísticos, sino complementarlos con tamaños del efecto, intervalos de confianza amplios, pre-registro de hipótesis y mayor transparencia metodológica.