set.seed(123) # para reproducibilidad
N <- 1000
lanzamientos <- sample(c("Cara", "Cruz"), size = N, replace = TRUE, prob = c(0.5, 0.5))
table(lanzamientos)/N
lanzamientos
Cara Cruz
0.493 0.507
Aunque probabilidad y estadística están relacionadas, representan enfoques distintos del análisis:
Estas preguntas parten de conocer la verdad del mundo (una moneda justa, un dado perfecto, etc.) y calculan probabilidades específicas.
La estadística utiliza datos observados para juzgar qué modelo (hipótesis) es más probable.
No existe un consenso universal sobre el significado exacto del término “probabilidad”, pero existen dos enfoques predominantes:
Define la probabilidad como la frecuencia relativa de un evento cuando el experimento se repite infinitamente. Por ejemplo, al lanzar una moneda justa, decimos que:
\[ P(\text{Cara}) = \frac{1}{2} \]
Lo que significa que si lanzamos la moneda un número muy grande de veces $ N $, la proporción de caras se aproximará al valor 0.5.
Por ejemplo, si simulamos lanzar una moneda “justa” 1000 veces y verificamos cómo la proporción de caras se acerca a 50%.
Este experimento también se puede ilustrar de la siguiente manera. Supongamos que lanzamos una moneda 1000 veces y calculamos la proporción de caras en cada lanzamiento acumulativo.
Define la probabilidad como un grado de creencia racional sobre un evento. Aquí la probabilidad es subjetiva, basada en la información disponible y no requiere experimentos infinitos.
Por ejemplo, afirmar que “mañana hay un 90% de probabilidad de lluvia” puede interpretarse como una creencia personal que afecta decisiones (p.ej. llevar paraguas o no).
La probabilidad subjetiva puede formalizarse mediante apuestas racionales o creencias personales actualizadas usando el teorema de Bayes:
\[ P(A|B) = \frac{P(B|A)P(A)}{P(B)} \]
Supongamos que, según conocimiento previo, la probabilidad de lluvia mañana es 0.2 (20%) pero se recibe información adicional de que hoy está muy nublado. Además, sabemos que en días lluviosos previos, el 90% estuvieron precedidos por días nublados, pero también que el 50% de los días en general son nublados. Actualizamos nuestra creencia con Bayes:
\[ P(\text{Lluvia|Nublado}) = \frac{P(\text{Nublado|Lluvia})P(\text{Lluvia})}{P(\text{Nublado})} = \frac{(0.9)(0.2)}{0.5} = 0.36 \]
Tras considerar el día nublado, la probabilidad se actualiza del 20% al 36%.
La probabilidad es una rama de las matemáticas que estudia la incertidumbre y la aleatoriedad. Se utiliza para cuantificar la certeza o posibilidad de que ocurra un evento específico dentro de un conjunto de resultados posibles.
Antes de hablar de probabilidad es importante entender algunos conceptos básicos.
En este sentido, la probabilidad es una medida que asigna un valor numérico a la certeza de que ocurra un evento específico dentro del espacio muestral.
Por ejemplo, al lanzar un dado, la probabilidad de obtener un número par es:
\[ P(E) = P(\{2, 4, 6\}) = \frac{3}{6} = \frac{1}{2} = 0.5 \]
Regularmente, la probabilidad se denota como \(P(E)\), donde \(E\) es el evento de interés.
Una variable aleatoria (VA) es una función que asigna un valor numérico a cada resultado de un experimento aleatorio. Las VA pueden ser:
Las VA son fundamentales en probabilidad porque permiten cuantificar y analizar eventos aleatorios de manera matemática. Por ejemplo, si \(X\) es una VA que representa el número de caras al lanzar una moneda 3 veces, entonces \(X\) puede tomar los valores 0, 1, 2 o 3.
Uno puede definir la VA \(X\) como:
\[ X = \begin{cases} 0 & \text{si no sale cara} \\ 1 & \text{si sale cara una vez} \\ 2 & \text{si sale cara dos veces} \\ 3 & \text{si sale cara tres veces} \end{cases} \]
Al final, la VA nos permite transformar eventos aleatorios en números, facilitando su análisis y comprensión.
La asignación de probabilidades a los eventos debe seguir ciertas reglas fundamentales que aseguran consistencia lógica:
Estas reglas proporcionan la estructura básica sobre la cual se desarrollan análisis probabilísticos más complejos y permiten calcular probabilidades incluso en situaciones con muchos eventos posibles.
Una distribución de probabilidad es una función matemática que describe cómo se distribuyen las probabilidades entre los posibles valores de una variable aleatoria (VA). En otras palabras, asigna una probabilidad a cada resultado posible de un experimento aleatorio.
Es básicamente una tabla que lista todos los posibles valores que una VA puede tomar y la probabilidad asociada a cada uno de ellos.
Supongamos que se define una VA \(X\) como el tipo de pantalón que usa una persona. Además, el espacio muestral está compuesto por 5 tipos de pantalones: \(S = \{\text{Jeans, Jeans, De vestir, Jeans, Chinos}\}\).
La distribución de probabilidad de \(X\) sería:
\[ \begin{array}{|c|c|} \hline \boldsymbol{X} & \boldsymbol{P(X=x)} \\ \hline \text{Jeans} & \frac{3}{5} = 0.6 \\ \text{De vestir} & \frac{1}{5} = 0.2 \\ \text{Chinos} & \frac{1}{5} = 0.2 \\ \hline \end{array} \]
De forma gráfica, la distribución de probabilidad de \(X\) se puede representar como un histograma, donde el eje \(x\) representa los tipos de pantalones y el eje \(y\) representa la probabilidad asociada a cada tipo:
Una distribución de probabilidad de una VA discreta es el listado de todos los posibles valores que dicha variable puede tomar y la probabilidad asociada a cada uno de ellos. - Una propiedad clave de las distribuciones de probabilidad es que la suma de todas las probabilidades debe ser igual a 1, \(\sum_{x \in S} P(X = x) = 1\)
Al igual que las VA, las distribuciones de probabilidad pueden ser discretas o continuas.
Matemáticamente, la PMF de una VA \(X\) se denota como \(P(X = x) \equiv \sum_{x \in S} P(X = x)\), donde \(S\) es el espacio muestral de \(X\). En ciertas ocasiones también se denota como \(p_X(x)\).
Por ejemplo, si \(X\) es el número de caras en 2 lanzamientos de una moneda, ¿cuál es la distribución de probabilidad de \(X\)?
En primer lugar, identificamos los posibles resultados de \(X\):
\[ \begin{array}{|c|c|c|} \hline \textbf{Evento} & \textbf{Primer lanzamiento} & \textbf{Segundo lanzamiento} \\ \hline 1 & \text{Cara} & \text{Cara} \\ \color{blue}{2} & \text{Cara} & \text{Cruz} \\ \color{blue}{3} & \text{Cruz} & \text{Cara} \\ \color{magenta}{4} & \text{Cruz} & \text{Cruz} \\ \hline \end{array} \]
Ahora, mapeamos los posibles resultados con los valores de \(X\):
\[ \begin{array}{|c|c|} \hline \boldsymbol{X=x} & \boldsymbol{P(X=x)} \\ \hline 0 & \frac{\color{magenta}{1}}{4} = 0.25 \\ 1 & \frac{\color{blue}{2}}{4} = 0.50 \\ 2 & \frac{1}{4} = 0.25 \\ \hline \end{array} \]
De forma gráfica, la distribución de probabilidad de \(X\) se puede representar como un histograma, donde el eje \(x\) representa los posibles valores de \(X\) y el eje \(y\) representa la probabilidad asociada a cada valor:
Se puede pensar la distribución de probabilidad de una VA discreta como una tabla que contiene los posibles valores de la VA \(X\) y la probabilidad asociada a cada uno de ellos.
A veces, nos interesa conocer la probabilidad acumulada de una VA, es decir, la probabilidad de que la VA sea menor o igual a un valor específico \(x\). Esta probabilidad se denota como \(P(X \le x)\).
Se calcula sumando las probabilidades de todos los valores. Por ejemplo, en el caso de la VA \(X\) definida como el número de caras en 2 lanzamientos de una moneda, la probabilidad acumulada:
\[ \begin{array}{|c|c|c|} \hline \boldsymbol{X=x} & \boldsymbol{P(X=x)} & \boldsymbol{P(X \leq x)} \\ \hline 0 & \frac{1}{4} = 0.25 & \frac{1}{4} = 0.25 \\ 1 & \frac{2}{4} = 0.50 & \frac{3}{4} = 0.75 \\ 2 & \frac{1}{4} = 0.25 & \frac{4}{4} = 1.00 \\ \hline \end{array} \]
Por ejemplo, la probabilidad de obtener 1 o menos caras en 2 lanzamientos de una moneda es de \(0.75\).
Algunas distribuciones de probabilidad son tan comunes y útiles que se les ha dado un nombre especial. Estas distribuciones tienen propiedades matemáticas bien definidas y se utilizan en una amplia variedad de aplicaciones estadísticas.
La teoría de la probabilidad se originó como un intento de describir el funcionamiento de los juegos de azar. En ese sentido, la distribución binomial es una de las distribuciones más importantes.
Supongamos que tenemos un dado de 6 caras las cuales se encuentra en blanco excepto una, que tiene dibujado un pikachu.
La probabilidad de ocurrencia es \(P(\text{Pikachu}) = \frac{1}{6} =0.167\). Supongamos que se tienen 20 dados iguales. ¿Cuál es la probabilidad de que al lanzar los 20 dados obtengamos exactamente 4 pikachus?
Vamos a denotar como \(X = \textit{Número de pikachus}\), que es nuestra variable aleatoria. \(N=20\) que es el número de lanzamientos, y \(\theta = \frac{1}{6}\) que es la probabilidad de obtener un pikachu en un lanzamiento. Esto lo podemos responder con la distribución binomial, definada como:
\[ P(X | \theta, N) = \frac{N!}{X!(N-X)!} \theta^X (1 - \theta)^{N - X} \]
Aunque no lo veremos en detalle, la distribución binomial describe la probabilidad de obtener exactamente \(X\) éxitos (pikachus) en \(N\) ensayos independientes (lanzamientos de dados), donde cada éxito tiene una probabilidad \(\theta\).
En nuestro caso, tenemos \(N = 20\), \(X = 4\) y \(\theta = \frac{1}{6}\). Sustituyendo en la fórmula:
\[ P(X = 4 | \theta = \frac{1}{6}, N = 20) = \frac{20!}{4!(20-4)!} \left(\frac{1}{6}\right)^4 \left(1 - \frac{1}{6}\right)^{20 - 4} \]
Para calcular esta probabilidad en R, podemos usar la función dbinom
:
Si lanzamos el dado 20 veces, la probabilidad de que salga pikachu exactamente 4 veces es aproximadamente 0.2022, o 20.22%.
Gráficamente, la distribución binomial se puede visualizar como un histograma de las probabilidades de obtener diferentes números de pikachus al lanzar los 20 dados:
La distribución normal es una de las distribuciones más importantes en estadística. Es una distribución continua que describe cómo se distribuyen muchos fenómenos naturales y sociales.
La distribución normal se caracteriza por su forma de campana simétrica, donde la mayoría de los valores se agrupan alrededor de la media y la probabilidad disminuye a medida que nos alejamos de ella.
La distribución normal se define por dos parámetros:
La función de densidad de probabilidad (PDF) de la distribución normal se expresa como:
\[ p(X|\mu, \sigma) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{(x - \mu)^2}{2\sigma^2}} \]
La distribución normal tiene propiedades importantes:
Gráficamente, la distribución normal se representa como una curva suave y simétrica:
En R
podemos obtener la distribución normal utilizando las funciones dnorm
, pnorm
y qnorm
:
mu <- 0
sigma <- 1
# Calcular la densidad de probabilidad para un valor específico
dnorm(0, mean = mu, sd = sigma) # Densidad de probabilidad en x=0
[1] 0.3989423
# Calcular la probabilidad acumulada hasta un valor específico
pnorm(1, mean = mu, sd = sigma) # Probabilidad acumulada hasta x=1
[1] 0.8413447
# Calcular el valor de x para una probabilidad acumulada específica
qnorm(0.95, mean = mu, sd = sigma) # Valor de x para P(X ≤ x) = 0.95
[1] 1.644854
# Calcular la probabilidad de que X esté entre dos valores
pnorm(2, mean = mu, sd = sigma) - pnorm(-1, mean = mu, sd = sigma) # P(-1 < X < 2)
[1] 0.8185946
La distribución t-Student es una distribución de probabilidad que se utiliza principalmente en inferencia estadística, especialmente cuando se trabaja con muestras pequeñas o cuando la desviación estándar de la población es desconocida.
Es similar a la distribución normal, pero tiene colas más gruesas, lo que significa que tiene una mayor probabilidad de producir valores extremos. Esto la hace más adecuada para muestras pequeñas.
Se define por un parámetro llamado grados de libertad (df), que generalmente se calcula como el tamaño de la muestra menos uno (\(df = n - 1\)).
La función de densidad de probabilidad (PDF) de la distribución t-Student se expresa como:
\[ p(X|df) = \frac{\Gamma\left(\frac{df + 1}{2}\right)}{\sqrt{df \pi} \Gamma\left(\frac{df}{2}\right)} \left(1 + \frac{x^2}{df}\right)^{-\frac{df + 1}{2}} \]
La distribución t-Student tiene propiedades importantes:
Gráficamente se representa como una curva similar a la normal, pero con colas más gruesas:
La distribución chi-cuadrado es una distribución de probabilidad que se utiliza principalmente en pruebas de hipótesis y en la construcción de intervalos de confianza para varianzas.
Se define por un parámetro llamado grados de libertad (df), que generalmente se calcula como el número de observaciones menos uno (\(df = n - 1\)).
La función de densidad de probabilidad (PDF) de la distribución chi-cuadrado se expresa como:
\[ p(X|df) = \frac{1}{2^{df/2} \Gamma\left(\frac{df}{2}\right)} x^{\frac{df}{2} - 1} e^{-\frac{x}{2}} \]
La distribución chi-cuadrado tiene propiedades importantes:
Gráficamente:
La distribución \(F\) es una distribución de probabilidad que se utiliza principalmente en análisis de varianza (ANOVA) y en pruebas de hipótesis relacionadas con la comparación de varianzas entre dos poblaciones.
Se define como la razón de dos variables aleatorias chi-cuadrado independientes, cada una dividida por sus respectivos grados de libertad.
La distribución \(F\) se define por dos parámetros llamados grados de libertad del numerador (df1) y grados de libertad del denominador (df2).
La función de densidad de probabilidad (PDF) de la distribución \(F\) se expresa como:
\[ p(x \mid df_1, df_2) = \frac{\Gamma\left(\frac{df_1 + df_2}{2}\right)} {\Gamma\left(\frac{df_1}{2}\right)\Gamma\left(\frac{df_2}{2}\right)} \left(\frac{df_1}{df_2}\right)^{df_1/2} \cdot \frac{x^{df_1/2 - 1}}{\left(1 + \frac{df_1}{df_2} x\right)^{(df_1 + df_2)/2}}, \quad x > 0 \]
La distribución \(F\) tiene propiedades importantes:
Gráficamente, la distribución \(F\) se representa como una curva asimétrica:
El objeto de la estadística inferencial es hacer afirmaciones sobre una población a partir de una muestra. Es básicamente “aprender lo que no sabemos desde lo que sabemos”. Esto implica estimar parámetros poblacionales y realizar pruebas de hipótesis.
Para que la estadística inferencial sea posible, es necesario especificar bajo cuáles supuestos o condiciones las inferencias que hagamos serán válidas. Estos supuestos, por lo general, se refieren a la forma en que se selecciona la muestra de la población.
Una población es el conjunto completo de elementos o individuos que comparten una característica común y que queremos estudiar. Sin embargo, no siempre es evidente cuál es la población de interés.
Por ejemplo, si estamos estudiando el consumo de café en una ciudad, ¿cuál es la población de interés? ¿Todos los habitantes de la ciudad, o solo aquellos que consumen café? ¿O quizás solo los que consumen café diariamente?
La muestra es un subconjunto de la población que se selecciona para realizar el estudio. La muestra debe ser representativa de la población para que las inferencias sean válidas.
El ideal es que la muestra sea lo suficientemente grande y diversa para capturar las características de la población. Un método común para seleccionar una muestra es el muestreo aleatorio, donde cada individuo de la población tiene la misma probabilidad de ser seleccionado.
Para alcanzar una muestra representativa, se utilizan diferentes métodos de muestreo. Algunos de los más comunes son:
En estadística, un parámetro poblacional es una medida que describe una característica de toda la población. Por ejemplo, la media poblacional (\(\mu\)) es el promedio de todos los valores en la población, y la desviación estándar poblacional (\(\sigma\)) mide la dispersión de los valores en torno a la media. Estas tienen su contraparte muestral, tanto para la media (\(\bar{x} \equiv \hat\mu\)) como para la desviación estándar (\(s\equiv \hat\sigma\)).
Usualmente los parámetros poblacionales son desconocidos, por lo que se estima a partir de los datos de la muestra. Los estadísticos muestrales son las medidas calculadas a partir de la muestra que se utilizan para estimar los parámetros poblacionales.
Supongamos que queremos estudiar el coeficiente intelectual (IQ, por sus siglas en inglés) de un grupo de individuos. La población la vamos a definir de manera general como “todas las personas con IQ conocido”.
En este caso, el parámetro poblacional sería la media del IQ de todas las personas con IQ conocido, denotada como \(\mu = 100\). Asumimos una desviación estándar, \(\sigma = 15\). Además, asumimos también que el IQ está distribuído normalmente.
Sin embargo, no podemos medir el IQ de todas las personas, por lo que tomamos una muestra de 100 personas y calculamos la media muestral, denotada como \(\bar{x}\).
# Definir el tamaño de la muestra
n <- 100 # Tamaño de la muestra
# Generar una muestra aleatoria de IQ
set.seed(123) # Para reproducibilidad
sample_iq <- round(rnorm(n, mean = mu, sd = sigma))
# Calcular la media muestral
mean_iq <- mean(sample_iq)
# Calcular la desviación estándar muestral
sd_iq <- sd(sample_iq)
# Mostrar los resultados
cat("Media muestral (IQ):", mean_iq, "\n")
Media muestral (IQ): 101.42
Desviación estándar muestral (IQ): 13.66643
Gráficamente:
La ley de los grandes números establece que, a medida que el tamaño de la muestra aumenta, la media muestral se aproxima a la media poblacional. En otras palabras, si tomamos muestras más grandes, la media de esas muestras será más cercana a la media real de la población.
La ley de los grandes números nos dice que, a medida que el tamaño de la muestra aumenta, la media muestral se aproxima a la media poblacional. Sin embargo, ¿es suficente saber esto para responder preguntas cuando mi muestra tiene un número fijo de observaciones?
Supongamos nuevamente que estamos estudiando el coeficiente intelectual (IQ) de un grupo de individuos. Como ya vimos, la población tiene una media poblacional de \(\mu = 100\) y una desviación estándar de \(\sigma = 15\), además de que el IQ está distribuído normalmente.
En este caso la media muestral es:
\[ \bar{x} = \frac{92 + 97 + 123 + 101 + 102}{5} = 103 \]
Imaginemos que repetimos este experimento 10 veces:
Nótese que la media muestral varía entre las repeticiones. Además, en este caso ya tenemos 10 medias muestrales.
Imagine ahora que realizamos este experimento (es decir, tomamos una muestra de 5 individuos y calculamos la media muestral de su IQ) \(10,000\). ¿Qué pasaría con las medias muestrales?
Nótese que la distribución de las medias muestrales se aproxima a una distribución normal que, además, está más concentrada alrededor de la media poblacional. ¿cómo se interpreta? Si tomamos una muestra de 5 individuos, la media muestral tendrá una distribución normal con media \(\mu = 100\) y variará entre 80 y 120, aún cuando la población tiene una rango más amplio.
¿Qué hemos aprendido del anterior experimento? 1. Si la muestra es pequeña, probablemente la media muestral sea inexacta. 2. Si se repite el experimento muchas veces, la distribución de las medias muestrales se aproxima a una distribución normal, sin embargo, en el caso de \(N=5\) la distribución de las medias muestrales es bastante amplia.
¿Qué pasaría si tomamos muestras más grandes? ¿Qué pasaría si tomamos muestras de \(N=20\)? ¿O de \(N=50\)? ¿O de \(N=100\)? Esto podemos verlo en la figura siguiente, donde se muestran las distribuciones de las medias muestrales para diferentes tamaños de muestra.
Nótese que la distribución de la media muestral se aproxima a una distribución normal. Alguien podría decir que esto se deriva del hecho de que la distribución de la población es normal. Sin embargo, esto no es cierto.
Supongamos que la población no es normal, sino que tiene una distribución \(\chi^2\) con 3 grados de libertad.
¿Qué pasaría si tomamos muestras de \(N=5\) y calculamos la media muestral? ¿Cómo se vería la distribución de las medias muestrales?
Nótese que, incluso cuando la población no es normal, la distribución de las medias muestrales se aproxima a una distribución normal a medida que el tamaño de la muestra aumenta. Esto es lo que se conoce como el teorema del límite central.
Entonces, lo que nos dice este teorema es que:
Basados en este teorema es posible derivar una fórmula para el error estándar de la media muestral:
\[ SE_{\bar{x}} = \frac{\sigma}{\sqrt{N}} \]
donde \(SE_{\bar{x}}\) es el error estándar de la media muestral, \(\sigma\) es la desviación estándar poblacional y \(N\) es el tamaño de la muestra.
Esto nos permitirá cuantificar la incertidumbre asociada al muestreo.
El ejemplo que hemos visto parte del supuesto de que conocemos la distribución de la población. Sin embargo, en la práctica, este es justamente el problema: no conocemos la distribución de la población, aunque queremos aprender sobre ella a partir de una muestra de datos.
Para aprender sobre ella se necesita estimar los parámetros de la distribución de interés. La buena noticia es que, regularmente, el parámetro de interés suele ser una especie de “promedio” de la población, como la media. Por tanto, es posible utilizar lo que hemos aprendido sobre la media muestral y el error estándar para estimar estos parámetros.
Un intervalo de confianza es un rango de valores que se utiliza para estimar un parámetro poblacional desconocido. Este intervalo se construye a partir de la muestra y proporciona una medida de la incertidumbre asociada a la estimación.
Por ejemplo, retomando el ejemplo del coeficiente intelectual (IQ), supongamos que hemos calculado una media muestral de \(\bar{x} = 103\) y un error estándar de \(SE_{\bar{x}} = 3.5\), ¿qué podemos decir sobre la media poblacional?
Tomando en cuenta la distribución de muestreo, construir un intervalo de confianza para la media muestral es bastante intuitivo.
Supongamos que la media poblacional es \(\mu\) y que la desviación estándar poblacional es \(\sigma\). Si tomamos una muestra de tamaño \(N\) y calculamos la media muestral obtendríamos \(\bar{x}\).
Además,
Entonces, podemos construir un intervalo de confianza del 95% para la media poblacional \(\mu\) como:
\[ \mu - (1.96 \cdot SE_{\bar{x}}) < \bar{x} < \mu + (1.96 \cdot SE_{\bar{x}}) \]
Donde \(SE_{\bar{x}} = \frac{\sigma}{\sqrt{N}}\) es el error estándar de la media muestral.
Ahora, usando un poco de álgebra, podemos reescribir el intervalo de confianza como: \[ \bar{x} - (1.96 \cdot SE_{\bar{x}}) < \mu < \bar{x} + (1.96 \cdot SE_{\bar{x}}) \]
Que se interpeta como el rango de valores que contiene la media poblacional con un 95% de confianza. Este es un intervalo de confianza del 95% para la media poblacional, a veces denotado \(CI_{95\%}\).
Para ilustar, vamos a realizar un experimento. Vamos a simular 50 muestras de 10 individuos cada una de la población de IQ que hemos definido anteriormente. Luego, para cada muestra, vamos a calcular la media muestral y el error estándar, y finalmente construiremos un intervalo de confianza del 95% para la media poblacional.
Advertencia
La interpretación de un intervalo de confianza del 95% está relacionada con el concepto de replicación. Específicamente: si repitiéramos el experimento una y otra vez, y en cada réplica calculáramos un intervalo de confianza del 95%, entonces el 95% de esos intervalos contendría la media verdadera. De forma más general, el 95% de todos los intervalos de confianza construidos mediante este procedimiento deberían contener la media poblacional verdadera.