Estadística Inferencial

Roger M. López

Introducción

¿Cómo son diferentes la probabilidad y la estadística?

Aunque probabilidad y estadística están relacionadas, representan enfoques distintos del análisis:

  • Probabilidad parte de un modelo conocido del mundo (las reglas del juego) y calcula qué resultados pueden ocurrir. Por ejemplo, preguntas como:
    • ¿Cuál es la probabilidad de obtener cara 10 veces seguidas al lanzar una moneda justa?
    • ¿Qué probabilidad hay de sacar cinco cartas del mismo palo de un mazo bien barajado?

Estas preguntas parten de conocer la verdad del mundo (una moneda justa, un dado perfecto, etc.) y calculan probabilidades específicas.

  • Estadística funciona al revés: no conocemos el modelo exacto del mundo, sólo disponemos de datos observados y tratamos de inferir el modelo subyacente. Ejemplos:
    • Si alguien obtiene cara 10 veces seguidas lanzando una moneda, ¿es realmente una moneda justa o está manipulada?
    • Si saco cinco cartas y todas son corazones, ¿realmente estaba bien barajado el mazo?

La estadística utiliza datos observados para juzgar qué modelo (hipótesis) es más probable.

¿Qué significa probabilidad?

No existe un consenso universal sobre el significado exacto del término “probabilidad”, pero existen dos enfoques predominantes:

  • Frequentista (clásica): Define la probabilidad como la frecuencia relativa de un evento cuando el experimento se repite infinitamente.
  • Bayesiana (subjetiva): Define la probabilidad como un grado de creencia racional sobre un evento, que puede actualizarse con nueva información.

Visión frecuentista (clásica)

Define la probabilidad como la frecuencia relativa de un evento cuando el experimento se repite infinitamente. Por ejemplo, al lanzar una moneda justa, decimos que:

\[ P(\text{Cara}) = \frac{1}{2} \]

Lo que significa que si lanzamos la moneda un número muy grande de veces $ N $, la proporción de caras se aproximará al valor 0.5.

Por ejemplo, si simulamos lanzar una moneda “justa” 1000 veces y verificamos cómo la proporción de caras se acerca a 50%.

set.seed(123) # para reproducibilidad
N <- 1000
lanzamientos <- sample(c("Cara", "Cruz"), size = N, replace = TRUE, prob = c(0.5, 0.5))
table(lanzamientos)/N
lanzamientos
 Cara  Cruz 
0.493 0.507 

Este experimento también se puede ilustrar de la siguiente manera. Supongamos que lanzamos una moneda 1000 veces y calculamos la proporción de caras en cada lanzamiento acumulativo.

Proporción acumulada de caras en 4 simulaciones de lanzamientos de moneda

Visión bayesiana (subjetiva)

Define la probabilidad como un grado de creencia racional sobre un evento. Aquí la probabilidad es subjetiva, basada en la información disponible y no requiere experimentos infinitos.

Por ejemplo, afirmar que “mañana hay un 90% de probabilidad de lluvia” puede interpretarse como una creencia personal que afecta decisiones (p.ej. llevar paraguas o no).

La probabilidad subjetiva puede formalizarse mediante apuestas racionales o creencias personales actualizadas usando el teorema de Bayes:

\[ P(A|B) = \frac{P(B|A)P(A)}{P(B)} \]

Supongamos que, según conocimiento previo, la probabilidad de lluvia mañana es 0.2 (20%) pero se recibe información adicional de que hoy está muy nublado. Además, sabemos que en días lluviosos previos, el 90% estuvieron precedidos por días nublados, pero también que el 50% de los días en general son nublados. Actualizamos nuestra creencia con Bayes:

\[ P(\text{Lluvia|Nublado}) = \frac{P(\text{Nublado|Lluvia})P(\text{Lluvia})}{P(\text{Nublado})} = \frac{(0.9)(0.2)}{0.5} = 0.36 \]

Tras considerar el día nublado, la probabilidad se actualiza del 20% al 36%.

Probabilidad

La probabilidad es una rama de las matemáticas que estudia la incertidumbre y la aleatoriedad. Se utiliza para cuantificar la certeza o posibilidad de que ocurra un evento específico dentro de un conjunto de resultados posibles.

Conceptos básicos

Antes de hablar de probabilidad es importante entender algunos conceptos básicos.

  1. Llamamos experimento aleatorio a cualquier proceso que produce un resultado incierto. Por ejemplo, lanzar una moneda, tirar un dado, o medir la temperatura en un día específico.
  2. Un espacio muestral es el conjunto de todos los resultados posibles de un experimento aleatorio. Se suele denotar como \(S\) o también como \(\Omega\). Por ejemplo, al lanzar un dado, el espacio muestral es \(S =\{1, 2, 3, 4, 5, 6\}\).
  3. Un evento es un subconjunto del espacio muestral. Por ejemplo, el evento “obtener un número par al lanzar un dado” sería \(E = \{2, 4, 6\}\).

En este sentido, la probabilidad es una medida que asigna un valor numérico a la certeza de que ocurra un evento específico dentro del espacio muestral.

Por ejemplo, al lanzar un dado, la probabilidad de obtener un número par es:

\[ P(E) = P(\{2, 4, 6\}) = \frac{3}{6} = \frac{1}{2} = 0.5 \]

Regularmente, la probabilidad se denota como \(P(E)\), donde \(E\) es el evento de interés.

Variables aleatorias

Una variable aleatoria (VA) es una función que asigna un valor numérico a cada resultado de un experimento aleatorio. Las VA pueden ser:

  • Discretas: Toman un número finito o numerable de valores. Por ejemplo, el número de caras al lanzar una moneda varias veces.
  • Continuas: Pueden tomar cualquier valor dentro de un intervalo. Por ejemplo, la altura de una persona medida en centímetros.

Las VA son fundamentales en probabilidad porque permiten cuantificar y analizar eventos aleatorios de manera matemática. Por ejemplo, si \(X\) es una VA que representa el número de caras al lanzar una moneda 3 veces, entonces \(X\) puede tomar los valores 0, 1, 2 o 3.

Uno puede definir la VA \(X\) como:

\[ X = \begin{cases} 0 & \text{si no sale cara} \\ 1 & \text{si sale cara una vez} \\ 2 & \text{si sale cara dos veces} \\ 3 & \text{si sale cara tres veces} \end{cases} \]

Al final, la VA nos permite transformar eventos aleatorios en números, facilitando su análisis y comprensión.

Reglas fundamentales de la probabilidad

La asignación de probabilidades a los eventos debe seguir ciertas reglas fundamentales que aseguran consistencia lógica:

  • Regla de no negatividad:
    • La probabilidad de cualquier evento \(A\) es siempre un número entre 0 y 1 inclusive:
    \[ 0 \leq P(A) \leq 1 \]
  • Regla de normalización:
    • La suma de las probabilidades de todos los eventos elementales dentro del espacio muestral debe ser exactamente igual a 1:
    \[ \sum_{X_i \in \Omega} P(X_i) = 1 \]
  • Probabilidad de eventos compuestos:
    • La probabilidad de un evento compuesto \(E\) (un conjunto que incluye varios eventos elementales) es igual a la suma de las probabilidades individuales de cada evento elemental que lo compone:
    \[ P(E) = \sum_{X_i \in E} P(X_i) \]

Estas reglas proporcionan la estructura básica sobre la cual se desarrollan análisis probabilísticos más complejos y permiten calcular probabilidades incluso en situaciones con muchos eventos posibles.

Distribuciones de probabilidad

Una distribución de probabilidad es una función matemática que describe cómo se distribuyen las probabilidades entre los posibles valores de una variable aleatoria (VA). En otras palabras, asigna una probabilidad a cada resultado posible de un experimento aleatorio.

Es básicamente una tabla que lista todos los posibles valores que una VA puede tomar y la probabilidad asociada a cada uno de ellos.

Introducción

Supongamos que se define una VA \(X\) como el tipo de pantalón que usa una persona. Además, el espacio muestral está compuesto por 5 tipos de pantalones: \(S = \{\text{Jeans, Jeans, De vestir, Jeans, Chinos}\}\).

La distribución de probabilidad de \(X\) sería:

\[ \begin{array}{|c|c|} \hline \boldsymbol{X} & \boldsymbol{P(X=x)} \\ \hline \text{Jeans} & \frac{3}{5} = 0.6 \\ \text{De vestir} & \frac{1}{5} = 0.2 \\ \text{Chinos} & \frac{1}{5} = 0.2 \\ \hline \end{array} \]

De forma gráfica, la distribución de probabilidad de \(X\) se puede representar como un histograma, donde el eje \(x\) representa los tipos de pantalones y el eje \(y\) representa la probabilidad asociada a cada tipo:

Definiciones

Una distribución de probabilidad de una VA discreta es el listado de todos los posibles valores que dicha variable puede tomar y la probabilidad asociada a cada uno de ellos. - Una propiedad clave de las distribuciones de probabilidad es que la suma de todas las probabilidades debe ser igual a 1, \(\sum_{x \in S} P(X = x) = 1\)

Al igual que las VA, las distribuciones de probabilidad pueden ser discretas o continuas.

  • En el caso de las discretas, la distribución se llama función de masa de probabilidad (PMF).
  • En el caso de las continuas, la distribución se llama función de densidad de probabilidad (PDF).

Matemáticamente, la PMF de una VA \(X\) se denota como \(P(X = x) \equiv \sum_{x \in S} P(X = x)\), donde \(S\) es el espacio muestral de \(X\). En ciertas ocasiones también se denota como \(p_X(x)\).

Por ejemplo, si \(X\) es el número de caras en 2 lanzamientos de una moneda, ¿cuál es la distribución de probabilidad de \(X\)?

En primer lugar, identificamos los posibles resultados de \(X\):

\[ \begin{array}{|c|c|c|} \hline \textbf{Evento} & \textbf{Primer lanzamiento} & \textbf{Segundo lanzamiento} \\ \hline 1 & \text{Cara} & \text{Cara} \\ \color{blue}{2} & \text{Cara} & \text{Cruz} \\ \color{blue}{3} & \text{Cruz} & \text{Cara} \\ \color{magenta}{4} & \text{Cruz} & \text{Cruz} \\ \hline \end{array} \]

Ahora, mapeamos los posibles resultados con los valores de \(X\):

\[ \begin{array}{|c|c|} \hline \boldsymbol{X=x} & \boldsymbol{P(X=x)} \\ \hline 0 & \frac{\color{magenta}{1}}{4} = 0.25 \\ 1 & \frac{\color{blue}{2}}{4} = 0.50 \\ 2 & \frac{1}{4} = 0.25 \\ \hline \end{array} \]

De forma gráfica, la distribución de probabilidad de \(X\) se puede representar como un histograma, donde el eje \(x\) representa los posibles valores de \(X\) y el eje \(y\) representa la probabilidad asociada a cada valor:

Distribución Acumulada

Se puede pensar la distribución de probabilidad de una VA discreta como una tabla que contiene los posibles valores de la VA \(X\) y la probabilidad asociada a cada uno de ellos.

A veces, nos interesa conocer la probabilidad acumulada de una VA, es decir, la probabilidad de que la VA sea menor o igual a un valor específico \(x\). Esta probabilidad se denota como \(P(X \le x)\).

Se calcula sumando las probabilidades de todos los valores. Por ejemplo, en el caso de la VA \(X\) definida como el número de caras en 2 lanzamientos de una moneda, la probabilidad acumulada:

\[ \begin{array}{|c|c|c|} \hline \boldsymbol{X=x} & \boldsymbol{P(X=x)} & \boldsymbol{P(X \leq x)} \\ \hline 0 & \frac{1}{4} = 0.25 & \frac{1}{4} = 0.25 \\ 1 & \frac{2}{4} = 0.50 & \frac{3}{4} = 0.75 \\ 2 & \frac{1}{4} = 0.25 & \frac{4}{4} = 1.00 \\ \hline \end{array} \]

Por ejemplo, la probabilidad de obtener 1 o menos caras en 2 lanzamientos de una moneda es de \(0.75\).

  • Gráficamente, la distribución de probabilidad acumulada de una VA se puede representar como:

Distribuciones especiales

Algunas distribuciones de probabilidad son tan comunes y útiles que se les ha dado un nombre especial. Estas distribuciones tienen propiedades matemáticas bien definidas y se utilizan en una amplia variedad de aplicaciones estadísticas.

Distribución binomial

La teoría de la probabilidad se originó como un intento de describir el funcionamiento de los juegos de azar. En ese sentido, la distribución binomial es una de las distribuciones más importantes.

Supongamos que tenemos un dado de 6 caras las cuales se encuentra en blanco excepto una, que tiene dibujado un pikachu.