Estadística Inferencial

Roger M. López

Introducción

¿Cómo son diferentes la probabilidad y la estadística?

Aunque probabilidad y estadística están relacionadas, representan enfoques distintos del análisis:

  • Probabilidad parte de un modelo conocido del mundo (las reglas del juego) y calcula qué resultados pueden ocurrir. Por ejemplo, preguntas como:
    • ¿Cuál es la probabilidad de obtener cara 10 veces seguidas al lanzar una moneda justa?
    • ¿Qué probabilidad hay de sacar cinco cartas del mismo palo de un mazo bien barajado?

Estas preguntas parten de conocer la verdad del mundo (una moneda justa, un dado perfecto, etc.) y calculan probabilidades específicas.

  • Estadística funciona al revés: no conocemos el modelo exacto del mundo, sólo disponemos de datos observados y tratamos de inferir el modelo subyacente. Ejemplos:
    • Si alguien obtiene cara 10 veces seguidas lanzando una moneda, ¿es realmente una moneda justa o está manipulada?
    • Si saco cinco cartas y todas son corazones, ¿realmente estaba bien barajado el mazo?

La estadística utiliza datos observados para juzgar qué modelo (hipótesis) es más probable.

¿Qué significa probabilidad?

No existe un consenso universal sobre el significado exacto del término “probabilidad”, pero existen dos enfoques predominantes:

  • Frequentista (clásica): Define la probabilidad como la frecuencia relativa de un evento cuando el experimento se repite infinitamente.
  • Bayesiana (subjetiva): Define la probabilidad como un grado de creencia racional sobre un evento, que puede actualizarse con nueva información.

Visión frecuentista (clásica)

Define la probabilidad como la frecuencia relativa de un evento cuando el experimento se repite infinitamente. Por ejemplo, al lanzar una moneda justa, decimos que:

\[ P(\text{Cara}) = \frac{1}{2} \]

Lo que significa que si lanzamos la moneda un número muy grande de veces $ N $, la proporción de caras se aproximará al valor 0.5.

Por ejemplo, si simulamos lanzar una moneda “justa” 1000 veces y verificamos cómo la proporción de caras se acerca a 50%.

set.seed(123) # para reproducibilidad
N <- 1000
lanzamientos <- sample(c("Cara", "Cruz"), size = N, replace = TRUE, prob = c(0.5, 0.5))
table(lanzamientos)/N
lanzamientos
 Cara  Cruz 
0.493 0.507 

Este experimento también se puede ilustrar de la siguiente manera. Supongamos que lanzamos una moneda 1000 veces y calculamos la proporción de caras en cada lanzamiento acumulativo.

Proporción acumulada de caras en 4 simulaciones de lanzamientos de moneda

Visión bayesiana (subjetiva)

Define la probabilidad como un grado de creencia racional sobre un evento. Aquí la probabilidad es subjetiva, basada en la información disponible y no requiere experimentos infinitos.

Por ejemplo, afirmar que “mañana hay un 90% de probabilidad de lluvia” puede interpretarse como una creencia personal que afecta decisiones (p.ej. llevar paraguas o no).

La probabilidad subjetiva puede formalizarse mediante apuestas racionales o creencias personales actualizadas usando el teorema de Bayes:

\[ P(A|B) = \frac{P(B|A)P(A)}{P(B)} \]

Supongamos que, según conocimiento previo, la probabilidad de lluvia mañana es 0.2 (20%) pero se recibe información adicional de que hoy está muy nublado. Además, sabemos que en días lluviosos previos, el 90% estuvieron precedidos por días nublados, pero también que el 50% de los días en general son nublados. Actualizamos nuestra creencia con Bayes:

\[ P(\text{Lluvia|Nublado}) = \frac{P(\text{Nublado|Lluvia})P(\text{Lluvia})}{P(\text{Nublado})} = \frac{(0.9)(0.2)}{0.5} = 0.36 \]

Tras considerar el día nublado, la probabilidad se actualiza del 20% al 36%.

Probabilidad

La probabilidad es una rama de las matemáticas que estudia la incertidumbre y la aleatoriedad. Se utiliza para cuantificar la certeza o posibilidad de que ocurra un evento específico dentro de un conjunto de resultados posibles.

Conceptos básicos

Antes de hablar de probabilidad es importante entender algunos conceptos básicos.

  1. Llamamos experimento aleatorio a cualquier proceso que produce un resultado incierto. Por ejemplo, lanzar una moneda, tirar un dado, o medir la temperatura en un día específico.
  2. Un espacio muestral es el conjunto de todos los resultados posibles de un experimento aleatorio. Se suele denotar como \(S\) o también como \(\Omega\). Por ejemplo, al lanzar un dado, el espacio muestral es \(S =\{1, 2, 3, 4, 5, 6\}\).
  3. Un evento es un subconjunto del espacio muestral. Por ejemplo, el evento “obtener un número par al lanzar un dado” sería \(E = \{2, 4, 6\}\).

En este sentido, la probabilidad es una medida que asigna un valor numérico a la certeza de que ocurra un evento específico dentro del espacio muestral.

Por ejemplo, al lanzar un dado, la probabilidad de obtener un número par es:

\[ P(E) = P(\{2, 4, 6\}) = \frac{3}{6} = \frac{1}{2} = 0.5 \]

Regularmente, la probabilidad se denota como \(P(E)\), donde \(E\) es el evento de interés.

Variables aleatorias

Una variable aleatoria (VA) es una función que asigna un valor numérico a cada resultado de un experimento aleatorio. Las VA pueden ser:

  • Discretas: Toman un número finito o numerable de valores. Por ejemplo, el número de caras al lanzar una moneda varias veces.
  • Continuas: Pueden tomar cualquier valor dentro de un intervalo. Por ejemplo, la altura de una persona medida en centímetros.

Las VA son fundamentales en probabilidad porque permiten cuantificar y analizar eventos aleatorios de manera matemática. Por ejemplo, si \(X\) es una VA que representa el número de caras al lanzar una moneda 3 veces, entonces \(X\) puede tomar los valores 0, 1, 2 o 3.

Uno puede definir la VA \(X\) como:

\[ X = \begin{cases} 0 & \text{si no sale cara} \\ 1 & \text{si sale cara una vez} \\ 2 & \text{si sale cara dos veces} \\ 3 & \text{si sale cara tres veces} \end{cases} \]

Al final, la VA nos permite transformar eventos aleatorios en números, facilitando su análisis y comprensión.

Reglas fundamentales de la probabilidad

La asignación de probabilidades a los eventos debe seguir ciertas reglas fundamentales que aseguran consistencia lógica:

  • Regla de no negatividad:
    • La probabilidad de cualquier evento \(A\) es siempre un número entre 0 y 1 inclusive:
    \[ 0 \leq P(A) \leq 1 \]
  • Regla de normalización:
    • La suma de las probabilidades de todos los eventos elementales dentro del espacio muestral debe ser exactamente igual a 1:
    \[ \sum_{X_i \in \Omega} P(X_i) = 1 \]
  • Probabilidad de eventos compuestos:
    • La probabilidad de un evento compuesto \(E\) (un conjunto que incluye varios eventos elementales) es igual a la suma de las probabilidades individuales de cada evento elemental que lo compone:
    \[ P(E) = \sum_{X_i \in E} P(X_i) \]

Estas reglas proporcionan la estructura básica sobre la cual se desarrollan análisis probabilísticos más complejos y permiten calcular probabilidades incluso en situaciones con muchos eventos posibles.

Distribuciones de probabilidad

Una distribución de probabilidad es una función matemática que describe cómo se distribuyen las probabilidades entre los posibles valores de una variable aleatoria (VA). En otras palabras, asigna una probabilidad a cada resultado posible de un experimento aleatorio.

Es básicamente una tabla que lista todos los posibles valores que una VA puede tomar y la probabilidad asociada a cada uno de ellos.

Introducción

Supongamos que se define una VA \(X\) como el tipo de pantalón que usa una persona. Además, el espacio muestral está compuesto por 5 tipos de pantalones: \(S = \{\text{Jeans, Jeans, De vestir, Jeans, Chinos}\}\).

La distribución de probabilidad de \(X\) sería:

\[ \begin{array}{|c|c|} \hline \boldsymbol{X} & \boldsymbol{P(X=x)} \\ \hline \text{Jeans} & \frac{3}{5} = 0.6 \\ \text{De vestir} & \frac{1}{5} = 0.2 \\ \text{Chinos} & \frac{1}{5} = 0.2 \\ \hline \end{array} \]

De forma gráfica, la distribución de probabilidad de \(X\) se puede representar como un histograma, donde el eje \(x\) representa los tipos de pantalones y el eje \(y\) representa la probabilidad asociada a cada tipo:

Definiciones

Una distribución de probabilidad de una VA discreta es el listado de todos los posibles valores que dicha variable puede tomar y la probabilidad asociada a cada uno de ellos. - Una propiedad clave de las distribuciones de probabilidad es que la suma de todas las probabilidades debe ser igual a 1, \(\sum_{x \in S} P(X = x) = 1\)

Al igual que las VA, las distribuciones de probabilidad pueden ser discretas o continuas.

  • En el caso de las discretas, la distribución se llama función de masa de probabilidad (PMF).
  • En el caso de las continuas, la distribución se llama función de densidad de probabilidad (PDF).

Matemáticamente, la PMF de una VA \(X\) se denota como \(P(X = x) \equiv \sum_{x \in S} P(X = x)\), donde \(S\) es el espacio muestral de \(X\). En ciertas ocasiones también se denota como \(p_X(x)\).

Por ejemplo, si \(X\) es el número de caras en 2 lanzamientos de una moneda, ¿cuál es la distribución de probabilidad de \(X\)?

En primer lugar, identificamos los posibles resultados de \(X\):

\[ \begin{array}{|c|c|c|} \hline \textbf{Evento} & \textbf{Primer lanzamiento} & \textbf{Segundo lanzamiento} \\ \hline 1 & \text{Cara} & \text{Cara} \\ \color{blue}{2} & \text{Cara} & \text{Cruz} \\ \color{blue}{3} & \text{Cruz} & \text{Cara} \\ \color{magenta}{4} & \text{Cruz} & \text{Cruz} \\ \hline \end{array} \]

Ahora, mapeamos los posibles resultados con los valores de \(X\):

\[ \begin{array}{|c|c|} \hline \boldsymbol{X=x} & \boldsymbol{P(X=x)} \\ \hline 0 & \frac{\color{magenta}{1}}{4} = 0.25 \\ 1 & \frac{\color{blue}{2}}{4} = 0.50 \\ 2 & \frac{1}{4} = 0.25 \\ \hline \end{array} \]

De forma gráfica, la distribución de probabilidad de \(X\) se puede representar como un histograma, donde el eje \(x\) representa los posibles valores de \(X\) y el eje \(y\) representa la probabilidad asociada a cada valor:

Distribución Acumulada

Se puede pensar la distribución de probabilidad de una VA discreta como una tabla que contiene los posibles valores de la VA \(X\) y la probabilidad asociada a cada uno de ellos.

A veces, nos interesa conocer la probabilidad acumulada de una VA, es decir, la probabilidad de que la VA sea menor o igual a un valor específico \(x\). Esta probabilidad se denota como \(P(X \le x)\).

Se calcula sumando las probabilidades de todos los valores. Por ejemplo, en el caso de la VA \(X\) definida como el número de caras en 2 lanzamientos de una moneda, la probabilidad acumulada:

\[ \begin{array}{|c|c|c|} \hline \boldsymbol{X=x} & \boldsymbol{P(X=x)} & \boldsymbol{P(X \leq x)} \\ \hline 0 & \frac{1}{4} = 0.25 & \frac{1}{4} = 0.25 \\ 1 & \frac{2}{4} = 0.50 & \frac{3}{4} = 0.75 \\ 2 & \frac{1}{4} = 0.25 & \frac{4}{4} = 1.00 \\ \hline \end{array} \]

Por ejemplo, la probabilidad de obtener 1 o menos caras en 2 lanzamientos de una moneda es de \(0.75\).

  • Gráficamente, la distribución de probabilidad acumulada de una VA se puede representar como:

Distribuciones especiales

Algunas distribuciones de probabilidad son tan comunes y útiles que se les ha dado un nombre especial. Estas distribuciones tienen propiedades matemáticas bien definidas y se utilizan en una amplia variedad de aplicaciones estadísticas.

Distribución binomial

La teoría de la probabilidad se originó como un intento de describir el funcionamiento de los juegos de azar. En ese sentido, la distribución binomial es una de las distribuciones más importantes.

Supongamos que tenemos un dado de 6 caras las cuales se encuentra en blanco excepto una, que tiene dibujado un pikachu.

La probabilidad de ocurrencia es \(P(\text{Pikachu}) = \frac{1}{6} =0.167\). Supongamos que se tienen 20 dados iguales. ¿Cuál es la probabilidad de que al lanzar los 20 dados obtengamos exactamente 4 pikachus?

Vamos a denotar como \(X = \textit{Número de pikachus}\), que es nuestra variable aleatoria. \(N=20\) que es el número de lanzamientos, y \(\theta = \frac{1}{6}\) que es la probabilidad de obtener un pikachu en un lanzamiento. Esto lo podemos responder con la distribución binomial, definada como:

\[ P(X | \theta, N) = \frac{N!}{X!(N-X)!} \theta^X (1 - \theta)^{N - X} \]

Aunque no lo veremos en detalle, la distribución binomial describe la probabilidad de obtener exactamente \(X\) éxitos (pikachus) en \(N\) ensayos independientes (lanzamientos de dados), donde cada éxito tiene una probabilidad \(\theta\).

En nuestro caso, tenemos \(N = 20\), \(X = 4\) y \(\theta = \frac{1}{6}\). Sustituyendo en la fórmula:

\[ P(X = 4 | \theta = \frac{1}{6}, N = 20) = \frac{20!}{4!(20-4)!} \left(\frac{1}{6}\right)^4 \left(1 - \frac{1}{6}\right)^{20 - 4} \]

Para calcular esta probabilidad en R, podemos usar la función dbinom:

# Calcular la probabilidad de obtener exactamente 4 pikachus al lanzar 20 dados
N <- 20 # número de lanzamientos
X <- 4 # número de pikachus
theta <- 1/6 # probabilidad de obtener un pikachu
probabilidad <- dbinom(X, size = N, prob = theta)
probabilidad
[1] 0.2022036

Si lanzamos el dado 20 veces, la probabilidad de que salga pikachu exactamente 4 veces es aproximadamente 0.2022, o 20.22%.

Gráficamente, la distribución binomial se puede visualizar como un histograma de las probabilidades de obtener diferentes números de pikachus al lanzar los 20 dados:

La distribución normal

La distribución normal es una de las distribuciones más importantes en estadística. Es una distribución continua que describe cómo se distribuyen muchos fenómenos naturales y sociales.

La distribución normal se caracteriza por su forma de campana simétrica, donde la mayoría de los valores se agrupan alrededor de la media y la probabilidad disminuye a medida que nos alejamos de ella.

La distribución normal se define por dos parámetros:

  • \(\mu\): la media (promedio) de la distribución.
  • \(\sigma\): la desviación estándar, que mide la dispersión de los datos alrededor de la media.

La función de densidad de probabilidad (PDF) de la distribución normal se expresa como:

\[ p(X|\mu, \sigma) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{(x - \mu)^2}{2\sigma^2}} \]

La distribución normal tiene propiedades importantes:

  • \(\approx 68\%\) de los datos caen dentro de una desviación estándar de la media (\(\mu \pm \sigma\)).
  • \(\approx 95\%\) de los datos caen dentro de dos desviaciones estándar (\(\mu \pm 2\sigma\)).
  • \(\approx 99.7\%\) de los datos caen dentro de tres desviaciones estándar (\(\mu \pm 3\sigma\)).

Gráficamente, la distribución normal se representa como una curva suave y simétrica:

En R podemos obtener la distribución normal utilizando las funciones dnorm, pnorm y qnorm:

mu <- 0
sigma <- 1
# Calcular la densidad de probabilidad para un valor específico
dnorm(0, mean = mu, sd = sigma) # Densidad de probabilidad en x=0
[1] 0.3989423
# Calcular la probabilidad acumulada hasta un valor específico
pnorm(1, mean = mu, sd = sigma) # Probabilidad acumulada hasta x=1
[1] 0.8413447
# Calcular el valor de x para una probabilidad acumulada específica
qnorm(0.95, mean = mu, sd = sigma) # Valor de x para P(X ≤ x) = 0.95
[1] 1.644854
# Calcular la probabilidad de que X esté entre dos valores
pnorm(2, mean = mu, sd = sigma) - pnorm(-1, mean = mu, sd = sigma) # P(-1 < X < 2)
[1] 0.8185946

La distribución t-Student

La distribución t-Student es una distribución de probabilidad que se utiliza principalmente en inferencia estadística, especialmente cuando se trabaja con muestras pequeñas o cuando la desviación estándar de la población es desconocida.

Es similar a la distribución normal, pero tiene colas más gruesas, lo que significa que tiene una mayor probabilidad de producir valores extremos. Esto la hace más adecuada para muestras pequeñas.

Se define por un parámetro llamado grados de libertad (df), que generalmente se calcula como el tamaño de la muestra menos uno (\(df = n - 1\)).

La función de densidad de probabilidad (PDF) de la distribución t-Student se expresa como:

\[ p(X|df) = \frac{\Gamma\left(\frac{df + 1}{2}\right)}{\sqrt{df \pi} \Gamma\left(\frac{df}{2}\right)} \left(1 + \frac{x^2}{df}\right)^{-\frac{df + 1}{2}} \]

La distribución t-Student tiene propiedades importantes:

  • A medida que aumentan los grados de libertad, se aproxima a la distribución normal.
  • \(\approx 95\%\) de los datos caen dentro de dos desviaciones estándar de la media, similar a la distribución normal.

Gráficamente se representa como una curva similar a la normal, pero con colas más gruesas:

La distribución chi-cuadrado

La distribución chi-cuadrado es una distribución de probabilidad que se utiliza principalmente en pruebas de hipótesis y en la construcción de intervalos de confianza para varianzas.

Se define por un parámetro llamado grados de libertad (df), que generalmente se calcula como el número de observaciones menos uno (\(df = n - 1\)).

La función de densidad de probabilidad (PDF) de la distribución chi-cuadrado se expresa como:

\[ p(X|df) = \frac{1}{2^{df/2} \Gamma\left(\frac{df}{2}\right)} x^{\frac{df}{2} - 1} e^{-\frac{x}{2}} \]

La distribución chi-cuadrado tiene propiedades importantes:

  • Es asimétrica y tiene una cola larga hacia la derecha.
  • A medida que aumentan los grados de libertad, la distribución chi-cuadrado se aproxima a una distribución normal.

Gráficamente:

Distribución \(F\)

La distribución \(F\) es una distribución de probabilidad que se utiliza principalmente en análisis de varianza (ANOVA) y en pruebas de hipótesis relacionadas con la comparación de varianzas entre dos poblaciones.

Se define como la razón de dos variables aleatorias chi-cuadrado independientes, cada una dividida por sus respectivos grados de libertad.

La distribución \(F\) se define por dos parámetros llamados grados de libertad del numerador (df1) y grados de libertad del denominador (df2).

La función de densidad de probabilidad (PDF) de la distribución \(F\) se expresa como:

\[ p(x \mid df_1, df_2) = \frac{\Gamma\left(\frac{df_1 + df_2}{2}\right)} {\Gamma\left(\frac{df_1}{2}\right)\Gamma\left(\frac{df_2}{2}\right)} \left(\frac{df_1}{df_2}\right)^{df_1/2} \cdot \frac{x^{df_1/2 - 1}}{\left(1 + \frac{df_1}{df_2} x\right)^{(df_1 + df_2)/2}}, \quad x > 0 \]

La distribución \(F\) tiene propiedades importantes:

  • Es asimétrica y tiene una cola larga hacia la derecha.
  • A medida que aumentan los grados de libertad, la distribución \(F\) se aproxima a una distribución normal.

Gráficamente, la distribución \(F\) se representa como una curva asimétrica:

Introducción a la estadística inferencial

El objeto de la estadística inferencial es hacer afirmaciones sobre una población a partir de una muestra. Es básicamente “aprender lo que no sabemos desde lo que sabemos”. Esto implica estimar parámetros poblacionales y realizar pruebas de hipótesis.

Muestras, poblaciones y muestreo

Para que la estadística inferencial sea posible, es necesario especificar bajo cuáles supuestos o condiciones las inferencias que hagamos serán válidas. Estos supuestos, por lo general, se refieren a la forma en que se selecciona la muestra de la población.

Una población es el conjunto completo de elementos o individuos que comparten una característica común y que queremos estudiar. Sin embargo, no siempre es evidente cuál es la población de interés.

Por ejemplo, si estamos estudiando el consumo de café en una ciudad, ¿cuál es la población de interés? ¿Todos los habitantes de la ciudad, o solo aquellos que consumen café? ¿O quizás solo los que consumen café diariamente?

La muestra es un subconjunto de la población que se selecciona para realizar el estudio. La muestra debe ser representativa de la población para que las inferencias sean válidas.

El ideal es que la muestra sea lo suficientemente grande y diversa para capturar las características de la población. Un método común para seleccionar una muestra es el muestreo aleatorio, donde cada individuo de la población tiene la misma probabilidad de ser seleccionado.

Para alcanzar una muestra representativa, se utilizan diferentes métodos de muestreo. Algunos de los más comunes son:

  • Muestreo aleatorio simple: Cada elemento de la población tiene la misma probabilidad de ser seleccionado. Por ejemplo, seleccionar al azar 100 personas de una ciudad.
  • Muestreo sistemático: Se selecciona un punto de partida aleatorio y luego se elige cada \(k\)-ésimo elemento. Por ejemplo, seleccionar cada 10 personas de una lista ordenada.
  • Muestreo estratificado: La población se divide en subgrupos (estratos) y se selecciona una muestra aleatoria de cada estrato. Por ejemplo, seleccionar un número proporcional de personas de diferentes grupos de edad.
  • Muestreo por conveniencia: Se selecciona la muestra de manera que sea fácil de acceder, pero puede no ser representativa. Por ejemplo, encuestar a las personas que pasan por una tienda específica.

Parámetros poblacionales y estadísticos muestrales

En estadística, un parámetro poblacional es una medida que describe una característica de toda la población. Por ejemplo, la media poblacional (\(\mu\)) es el promedio de todos los valores en la población, y la desviación estándar poblacional (\(\sigma\)) mide la dispersión de los valores en torno a la media. Estas tienen su contraparte muestral, tanto para la media (\(\bar{x} \equiv \hat\mu\)) como para la desviación estándar (\(s\equiv \hat\sigma\)).

Usualmente los parámetros poblacionales son desconocidos, por lo que se estima a partir de los datos de la muestra. Los estadísticos muestrales son las medidas calculadas a partir de la muestra que se utilizan para estimar los parámetros poblacionales.

Supongamos que queremos estudiar el coeficiente intelectual (IQ, por sus siglas en inglés) de un grupo de individuos. La población la vamos a definir de manera general como “todas las personas con IQ conocido”.

En este caso, el parámetro poblacional sería la media del IQ de todas las personas con IQ conocido, denotada como \(\mu = 100\). Asumimos una desviación estándar, \(\sigma = 15\). Además, asumimos también que el IQ está distribuído normalmente.

Sin embargo, no podemos medir el IQ de todas las personas, por lo que tomamos una muestra de 100 personas y calculamos la media muestral, denotada como \(\bar{x}\).

# Definir el tamaño de la muestra
n <- 100 # Tamaño de la muestra
# Generar una muestra aleatoria de IQ
set.seed(123) # Para reproducibilidad
sample_iq <- round(rnorm(n, mean = mu, sd = sigma))
# Calcular la media muestral
mean_iq <- mean(sample_iq)
# Calcular la desviación estándar muestral
sd_iq <- sd(sample_iq)
# Mostrar los resultados
cat("Media muestral (IQ):", mean_iq, "\n")
Media muestral (IQ): 101.42 
cat("Desviación estándar muestral (IQ):", sd_iq, "\n")
Desviación estándar muestral (IQ): 13.66643 

Gráficamente:

Ley de los grandes números

La ley de los grandes números establece que, a medida que el tamaño de la muestra aumenta, la media muestral se aproxima a la media poblacional. En otras palabras, si tomamos muestras más grandes, la media de esas muestras será más cercana a la media real de la población.

Ley de los grandes números

Distribuciones de muestreo

La ley de los grandes números nos dice que, a medida que el tamaño de la muestra aumenta, la media muestral se aproxima a la media poblacional. Sin embargo, ¿es suficente saber esto para responder preguntas cuando mi muestra tiene un número fijo de observaciones?

Supongamos nuevamente que estamos estudiando el coeficiente intelectual (IQ) de un grupo de individuos. Como ya vimos, la población tiene una media poblacional de \(\mu = 100\) y una desviación estándar de \(\sigma = 15\), además de que el IQ está distribuído normalmente.

Ahora, imaginemos que realizamos el siguiente experimento: tomamos una pequeña muestra de \(N=5\) personas de la población y calculamos la media muestral. Por ejemplo:

set.seed(123) # Para reproducibilidad
IQ.1 <- round(rnorm(n=5, mean = 100, sd = 15))
IQ.1
[1]  92  97 123 101 102

En este caso la media muestral es:

\[ \bar{x} = \frac{92 + 97 + 123 + 101 + 102}{5} = 103 \]

Imaginemos que repetimos este experimento 10 veces:

Nótese que la media muestral varía entre las repeticiones. Además, en este caso ya tenemos 10 medias muestrales.

Imagine ahora que realizamos este experimento (es decir, tomamos una muestra de 5 individuos y calculamos la media muestral de su IQ) \(10,000\). ¿Qué pasaría con las medias muestrales?

Nótese que la distribución de las medias muestrales se aproxima a una distribución normal que, además, está más concentrada alrededor de la media poblacional. ¿cómo se interpreta? Si tomamos una muestra de 5 individuos, la media muestral tendrá una distribución normal con media \(\mu = 100\) y variará entre 80 y 120, aún cuando la población tiene una rango más amplio.

El teorema del límite central

¿Qué hemos aprendido del anterior experimento? 1. Si la muestra es pequeña, probablemente la media muestral sea inexacta. 2. Si se repite el experimento muchas veces, la distribución de las medias muestrales se aproxima a una distribución normal, sin embargo, en el caso de \(N=5\) la distribución de las medias muestrales es bastante amplia.

¿Qué pasaría si tomamos muestras más grandes? ¿Qué pasaría si tomamos muestras de \(N=20\)? ¿O de \(N=50\)? ¿O de \(N=100\)? Esto podemos verlo en la figura siguiente, donde se muestran las distribuciones de las medias muestrales para diferentes tamaños de muestra.

Un pequeño “detour”

Nótese que la distribución de la media muestral se aproxima a una distribución normal. Alguien podría decir que esto se deriva del hecho de que la distribución de la población es normal. Sin embargo, esto no es cierto.

Supongamos que la población no es normal, sino que tiene una distribución \(\chi^2\) con 3 grados de libertad.

Distribución chi-cuadrado con 3 grados de libertad

¿Qué pasaría si tomamos muestras de \(N=5\) y calculamos la media muestral? ¿Cómo se vería la distribución de las medias muestrales?

Distribución muestral de la media para diferente tamaños de muestra

Nótese que, incluso cuando la población no es normal, la distribución de las medias muestrales se aproxima a una distribución normal a medida que el tamaño de la muestra aumenta. Esto es lo que se conoce como el teorema del límite central.

Entonces, lo que nos dice este teorema es que:

  1. La media de la distribución de muestreo coincide con la media poblacional, es decir, \(\mu_{\bar{x}} = \mu\).
  2. La desviación estándar de la distribución de muestreo (más conocida como el error estándar) se hace más pequeño a medida que el tamaño de la muestra aumenta, y
  3. La forma de la distribución de muestreo se aproxima a una distribución normal a medida que el tamaño de la muestra aumenta, independientemente de la forma de la distribución poblacional.

Basados en este teorema es posible derivar una fórmula para el error estándar de la media muestral:

\[ SE_{\bar{x}} = \frac{\sigma}{\sqrt{N}} \]

donde \(SE_{\bar{x}}\) es el error estándar de la media muestral, \(\sigma\) es la desviación estándar poblacional y \(N\) es el tamaño de la muestra.

Esto nos permitirá cuantificar la incertidumbre asociada al muestreo.

Estimación de parámetros

El ejemplo que hemos visto parte del supuesto de que conocemos la distribución de la población. Sin embargo, en la práctica, este es justamente el problema: no conocemos la distribución de la población, aunque queremos aprender sobre ella a partir de una muestra de datos.

Para aprender sobre ella se necesita estimar los parámetros de la distribución de interés. La buena noticia es que, regularmente, el parámetro de interés suele ser una especie de “promedio” de la población, como la media. Por tanto, es posible utilizar lo que hemos aprendido sobre la media muestral y el error estándar para estimar estos parámetros.

Intervalos de confianza

Un intervalo de confianza es un rango de valores que se utiliza para estimar un parámetro poblacional desconocido. Este intervalo se construye a partir de la muestra y proporciona una medida de la incertidumbre asociada a la estimación.

Por ejemplo, retomando el ejemplo del coeficiente intelectual (IQ), supongamos que hemos calculado una media muestral de \(\bar{x} = 103\) y un error estándar de \(SE_{\bar{x}} = 3.5\), ¿qué podemos decir sobre la media poblacional?

Tomando en cuenta la distribución de muestreo, construir un intervalo de confianza para la media muestral es bastante intuitivo.

Supongamos que la media poblacional es \(\mu\) y que la desviación estándar poblacional es \(\sigma\). Si tomamos una muestra de tamaño \(N\) y calculamos la media muestral obtendríamos \(\bar{x}\).

Además,

  1. sabemos que la distribución de la media muestral es aproximadamente normal (teorema del límite central).
  2. sabemos que aproximadamente el 95% de los valores de una distribución normal se encuentran dentro de dos desviaciones estándar de la media. Aunque más precisamente:
qnorm( p = c(.025, .975) )
[1] -1.959964  1.959964

Entonces, podemos construir un intervalo de confianza del 95% para la media poblacional \(\mu\) como:

\[ \mu - (1.96 \cdot SE_{\bar{x}}) < \bar{x} < \mu + (1.96 \cdot SE_{\bar{x}}) \]

Donde \(SE_{\bar{x}} = \frac{\sigma}{\sqrt{N}}\) es el error estándar de la media muestral.

Ahora, usando un poco de álgebra, podemos reescribir el intervalo de confianza como: \[ \bar{x} - (1.96 \cdot SE_{\bar{x}}) < \mu < \bar{x} + (1.96 \cdot SE_{\bar{x}}) \]

Que se interpeta como el rango de valores que contiene la media poblacional con un 95% de confianza. Este es un intervalo de confianza del 95% para la media poblacional, a veces denotado \(CI_{95\%}\).

Para ilustar, vamos a realizar un experimento. Vamos a simular 50 muestras de 10 individuos cada una de la población de IQ que hemos definido anteriormente. Luego, para cada muestra, vamos a calcular la media muestral y el error estándar, y finalmente construiremos un intervalo de confianza del 95% para la media poblacional.





Advertencia

La interpretación de un intervalo de confianza del 95% está relacionada con el concepto de replicación. Específicamente: si repitiéramos el experimento una y otra vez, y en cada réplica calculáramos un intervalo de confianza del 95%, entonces el 95% de esos intervalos contendría la media verdadera. De forma más general, el 95% de todos los intervalos de confianza construidos mediante este procedimiento deberían contener la media poblacional verdadera.