Cada vez que trabajamos con un conjunto de datos, la primera tarea es resumir la información de forma clara y comprensible. Lo segundo es organizar la información y, en tercer lugar, está el presentarla. Esto es el propósito de la estadística descriptiva, que es el primer paso en cualquier análisis estadístico, antes de aplicar métodos más avanzados.
Nuevamente en esta parte del curso, vamos a utilizar los datos obtenidos del Fondo Monetario Internacional (FMI) vistos en la clase anterior, pero acotados para los años 2000 a 2023.
Recordar que, alternativamente, se puede utilizar el comando library()
para cargar el paquete tidyverse
, que incluye dplyr
y ggplot2
, entre otros.
── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
✔ dplyr 1.1.4 ✔ readr 2.1.5
✔ forcats 1.0.0 ✔ stringr 1.5.1
✔ ggplot2 3.5.2 ✔ tibble 3.2.1
✔ lubridate 1.9.4 ✔ tidyr 1.3.1
✔ purrr 1.0.4
── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
✖ dplyr::filter() masks stats::filter()
✖ dplyr::lag() masks stats::lag()
ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
Las medidas de tendencia central son números que representan el centro de un conjunto de datos. Las más comunes son la media, la mediana y la moda.
La media es el promedio de un conjunto de datos. Se calcula sumando todos los valores y dividiendo por el número de valores.
\[\bar x = \frac{1}{n}\sum_{i=1}^{n} x_i\]
Donde:
Por ejemplo, si tenemos los valores 2, 3, 5 y 7, la media sería: \[\bar x = \frac{2 + 3 + 5 + 7}{4} = \frac{17}{4} = 4.25\]
Intuitivamente, la media es el valor que “equilibra” todos los datos. Es decir, si tuviéramos que colocar todos los valores en una balanza, la media sería el punto de equilibrio.
Para calcular la media del PIB per cápita en 2023, utilizamos el siguiente código:
Alternativamente, usando dplyr
:
Nota
La media es sensible a los valores extremos (outliers). Por ejemplo, si un país tiene un PIB per cápita muy alto, puede distorsionar la media hacia arriba. Por eso, en algunos casos, es preferible utilizar la mediana como medida de tendencia central.
La mediana es el valor que divide un conjunto de datos en dos partes iguales. Es decir, el 50% de los valores están por debajo de la mediana y el 50% están por encima. Se calcula ordenando los datos y seleccionando el valor del medio.
Si el número de observaciones es impar, la mediana es el valor del medio. Si es par, la mediana es el promedio de los dos valores del medio.
A diferencia de la media, la mediana no se ve afectada por los valores extremos. Por lo tanto, es una medida más robusta de tendencia central en presencia de outliers.
Sea \(X\) un conjunto de datos con \(n\) observaciones. Primero, ordenamos los datos de menor a mayor:
\[ X_{\text{ordenado}} = \{ x_{(1)}, x_{(2)}, \dots, x_{(n)} \} \text{ tal que } x_{(1)} \leq x_{(2)} \leq \dots \leq x_{(n)} \]
La mediana se define como:
\[ \text{Mediana}(X) = \begin{cases} x_{\left( \frac{n+1}{2} \right)} & \text{si } n \text{ es impar}, \\ \frac{1}{2} \left( x_{\left( \frac{n}{2} \right)} + x_{\left( \frac{n}{2} + 1 \right)} \right) & \text{si } n \text{ es par}. \end{cases} \]
Por ejemplo, si tenemos los valores 2, 3, 5 y 7, la mediana sería:
\[\text{Mediana} = \frac{3 + 5}{2} = 4\]
Intuitivamente, la mediana es el valor que divide el conjunto de datos en dos partes iguales.
Para calcular la mediana del PIB per cápita en 2023, utilizamos el siguiente código:
Alternativamente, usando dplyr
:
Las medidas de dispersión indican cuánto varían los datos respecto a la media o a la mediana. Las más comunes son el rango, el rango intercuartil, la varianza y la desviación estándar.
El rango es la diferencia entre el valor máximo y el valor mínimo de un conjunto de datos. Se calcula como: \[ Rango = x_{\text{max}} - x_{\text{min}} \]
Donde:
Por ejemplo, si tenemos los valores 2, 3, 5 y 7, el rango sería:
\[ Rango = 7 - 2 = 5 \]
Intuitivamente, el rango nos da una idea de la amplitud de los datos. Es decir, cuánto se extienden los valores desde el mínimo hasta el máximo.
En nuestro caso, el rango del PIB per cápita en 2023 se calcula de la siguiente manera:
Un cuantil (también llamado percentil) es un valor que divide un conjunto de datos ordenados en partes iguales. Por ejemplo, el cuantil 25° es el valor que separa el 25% inferior de los datos del 75% superior.
Los cuartiles son valores que dividen un conjunto de datos ordenados en cuatro partes iguales:
El rango intercuartil se calcula como:
\[ IQR = Q3 - Q1 \]
En nuestro ejemplo, el rango intercuartil del PIB per cápita en 2023 se calcula de la siguiente manera:
Para calcular el IQR del PIB per capita 2023, utilizamos:
q1 <- quantile(data$GDPpc_usd[data$Año == 2023]/1000, probs = 0.25, na.rm = TRUE)
q3 <- quantile(data$GDPpc_usd[data$Año == 2023]/1000, probs= 0.75, na.rm = TRUE)
rango_intercuartil <- q3 - q1
rango_intercuartil
75%
20.21851
Alternativamente, usando dplyr
:
Una forma común de visualizar el rango intercuartil y los cuartiles es mediante el gráfico de caja (boxplot). Este gráfico muestra la mediana, los cuartiles y los valores atípicos (outliers) de un conjunto de datos.
En un boxplot, la caja representa el rango intercuartil (IQR), la línea dentro de la caja representa la mediana, y las “extensiones” (bigotes) se extienden hasta el valor mínimo y máximo dentro de 1.5 veces el IQR.
Por ejemplo, en el caso del PIB per cápita en 2023, el boxplot muestra la distribución de los datos, destacando los cuartiles y la mediana. Los puntos fuera de los bigotes son considerados outliers.
En nuestro caso, el boxplot es bastante sugerente: la mayoría de los países tienen un PIB per cápita entre USD 5,000 y USD 20,000, pero hay algunos países con PIB per cápita muy altos (outliers) que distorsionan la media.
Lo interesante, desde el punto de vista del análisis, es quizás preguntarse por qué observamos esos datos.
Una primera pregunta es: ¿este tipo de distribución del ingreso se ha visto en otros años? ¿O es algo nuevo? Podríamos, por ejemplo, graficar el boxplot del PIB per cápita para todos los años y ver si la distribución ha cambiado.
Otra pregunta interesante es cómo se compara la distribución del PIB per cápita entre diferentes regiones del mundo. Podríamos, por ejemplo, graficar el boxplot del PIB per cápita por región.
La varianza es una medida de la dispersión de los datos respecto a la media. Se calcula como el promedio de las diferencias al cuadrado entre cada valor y la media:
\[ \hat\sigma^2 = \frac{1}{n}\sum_{i=1}^{n} (x_i - \bar x)^2 \]
Donde:
Intuitivamente, la varianza nos dice cuánto se dispersan los datos respecto a la media. Si la varianza es alta, significa que los datos están muy dispersos; si es baja, significa que los datos están más concentrados alrededor de la media.
Se desea calcular la varianza de los valores 2, 3, 5 y 7.
Para ello, primero calculamos la media: \[ \begin{align*} \bar x &= \frac{2 + 3 + 5 + 7}{4} = 4.25 \end{align*} \]
Luego, calculamos la varianza:
\[ \begin{align*} \hat{\sigma}^2 &= \frac{1}{4} \left( (2 - 4.25)^2 + (3 - 4.25)^2 + (5 - 4.25)^2 + (7 - 4.25)^2 \right) \\ &= \frac{1}{4} \left( 5.0625 + 1.5625 + 0.5625 + 7.5625 \right) \\ &= \frac{14.75}{4} = 3.6875 \end{align*} \]
¿Cómo se interpreta la varianza?
La varianza no tiene las mismas unidades que los datos originales, sino que representa “unidades al cuadrado” lo que puede dificultar su interpretación.
Por esta razón, se utiliza la desviación estándar, que es la raíz cuadrada de la varianza:
\[ \begin{array}{rl} \hat\sigma &= \sqrt{\hat\sigma^2} \\ &= \sqrt{\dfrac{1}{n} \sum\limits_{i=1}^{n} (x_i - \bar{x})^2} \end{array} \]
Donde:
Intuitivamente, la desviación estándar nos dice cuánto se dispersan los datos respecto a la media, pero en las mismas unidades que los datos originales.
La simetría y la curtosis son dos medidas que describen la forma de una distribución de datos. Estas medidas son útiles para entender cómo se distribuyen los datos en torno a la media y cómo se comportan las colas de la distribución.
La simetría, como su nombre lo indica, mide qué tan simétrica es una distribución. Una distribución es simétrica si sus dos mitades son iguales cuando se divide por la mitad.
Se mide mediante el coeficiente de asimetría (skewness), que puede ser positivo, negativo o cero:
\[\mbox{simetría}(x) = \frac{1}{n \hat{\sigma}^3} \sum_{i=1}^n (x_i - \bar{x})^3\]
La curtosis mide la “altura” y “ancho” de las colas de una distribución. Es decir, evalúa qué tan concentrados están los datos en torno a la media y cómo se comportan los valores extremos.
Se define como:
\[\mbox{curtosis}(x) = \frac{1}{n \hat\sigma^4} \sum_{i=1}^n \left( x_i - \bar{x} \right)^4 - 3\]
Clasificación informal
Forma | Nombre técnico | Signo de la excess kurtosis |
---|---|---|
“Demasiado plana” | Platykurtic | negativa |
“En el punto justo” | Mesokurtic | cero |
“Demasiado picuda” | Leptokurtic | positiva |
La covarianza y la correlación son dos medidas que describen la relación entre dos variables. Ambas son útiles para entender cómo varían juntas las variables y si existe una relación lineal entre ellas.
Puntaje en test. Usualmente, cuando se aplica a una Universidad (o maestría), los postulantes deben rendir una serie de tests estandarizados. Imagine que en un test particular hay una sección de razonamiento verbal y otra de razonamiento cuantitativo. Sea \(X\) el puntaje obtenido por un individuo en la parte verbal y \(Y\) en la parte cuantitativa.
Aunque hay estudiantes que rinden mejor sobre una parte de la prueba que sobre otra, es bastante razonable suponer que un estudiante que ha tenido muy buen puntaje en una sección tendrá un rendimiento al menos tan bueno como promedio en la otra.
¿Cómo podríamos encontrar un número de la distribución de probabilidad conjunta de \(X\) y \(Y\) que refleje el grado en que tener un buen puntaje en una sección del test esté acompañado por un buen puntaje en la otra sección?
La covarianza es una medida que indica cómo dos variables varían juntas. Matemáticamente:
\[ \mbox{Cov}(x,y) = \frac{1}{n-1} \sum_{i=1}^n \left( x_i - \bar{x} \right) \left( y_i - \bar{y} \right) \]
Donde:
Es posible construir un ejemplo sencillo para ilustrar la covarianza. Supongamos que tenemos dos variables \(X\) e \(Y\):
Advertencia
La covarianza puede ser difícil de interpretar porque su valor depende de las unidades de las variables. Por ejemplo, si \(X\) está en metros y \(Y\) en kilogramos, la covarianza tendrá unidades de metros-kilogramos.
La correlación es una medida estandarizada de la covarianza que indica la fuerza y dirección de la relación lineal entre dos variables. Se define como:
\[ \mbox{Corr}(x,y) = \frac{\mbox{Cov}(x,y)}{\hat\sigma_x \hat\sigma_y} \]
Donde:
En R
, usando la función cor()
:
data |> filter(Pais == 'Bolivia', Año >1990) |>
summarise(cor_crecimiento_inflacion = cor(rgrowth, Inflacion, use = "complete.obs"))
# A tibble: 1 × 1
cor_crecimiento_inflacion
<dbl>
1 0.420
Además, la correlación está acotada entre -1 y 1:
Finalmente, la correlación es adimensional, lo que significa que no depende de las unidades de las variables. Esto la hace más fácil de interpretar que la covarianza, además de que permite comparar la fuerza de la relación entre diferentes pares de variables.
Siempre es bueno visualizar la relación entre dos variables. En este caso, podemos graficar el crecimiento del PIB real y la inflación para Bolivia desde 1990.
Por ejemplo, en este caso la relación parece no lineal. En este sentido, el coeficiente de correlación podría no ser la métrica más adecuada para representar el grado de relación entre ambas variables.