Apuntes de Estadística


Índice de Contenidos

Población y Muestra

Población

El cuerpo total de mediciones o datos. Ejemplo: la población de México.

Muestra

Un número especificado de mediciones o datos. Ejemplo: la población de un municipio del Estado de México.

En la mayor parte de los casos, estamos interesados principalmente en la población, pero esta puede ser difícil o imposible de enumerar. En cambio, tratamos de describir o pronosticar el comportamiento de la población con base en información obtenida de una muestra representativa de esa población.

Nota: La imagen "poblacion_muestra.png" no se pudo incluir directamente ya que es un archivo local. Deberías asegurarte de que esta imagen esté accesible en la misma carpeta o una subcarpeta 'Estadistica' relativa a tu archivo HTML. Población y Muestra Poblacional


Estadística Descriptiva e Inferencial

Estadística Descriptiva

La estadística descriptiva está formada por procedimientos empleados para resumir y describir las características importantes de un conjunto de mediciones.

Estadística Inferencial

Está formada por procedimientos empleados para hacer inferencias acerca de características poblacionales, a partir de información contenida en una muestra.

Cuando se investiga una población extensa, como la de México (126,014,024 personas en 2020), no es práctico ni económico entrevistar a cada persona. En cambio, se selecciona cuidadosamente una muestra representativa de la población. Esta muestra permite obtener información que, mediante métodos estadísticos, se puede extrapolar para inferir las características de la población completa, como las preferencias de los votantes en una elección presidencial.

Para ilustrar la importancia de una correcta selección de muestra y la inferencia estadística, se recomienda revisar el siguiente artículo: Una historia de errores - El Financiero


1.1 Variables y Datos

¿Qué es una variable?

Una característica que cambia o varía en el tiempo y/o para diferentes personas u objetos bajo consideración. Por ejemplo, la estatura o el peso de una persona, la población en un país, la religión profesada, equipo de fútbol, etc.

Unidad Experimental

Es el individuo u objeto en el que se mide una variable. Resulta en una sola medición o dato cuando una variable se mide en realidad en una unidad experimental.

Datos

Los datos son valores, mediciones u observaciones recolectadas a partir de variables en un contexto determinado. Estos pueden representar hechos, cifras o descripciones que permiten analizar, describir o predecir un fenómeno. En términos estadísticos, los datos son el resultado de medir una variable en una o más unidades experimentales. Dependiendo del tipo de variable, los datos pueden ser categóricos (como el género o la religión) o numéricos (como la altura o el ingreso mensual).

Tipos de Datos


1.2 Tipos de Variables

Clasificación de las variables

Se pueden clasificar en dos categorías: cualitativas y cuantitativas.

Variables Cualitativas

Miden una cualidad o característica en cada unidad experimental. Las variables cuantitativas miden una cantidad numérica en cada unidad experimental.

Las variables cualitativas producen datos que se pueden clasificar de acuerdo a similitudes o diferencias de clase; por lo tanto, con frecuencia se denominan datos categóricos. Las variables como género, año y especialidad son variables categóricas.

Ejemplos de variables cualitativas

Ejemplos de variables cuantitativas

Diferencia entre valores numéricos en variables cuantitativas

Hay que observar una diferencia en los tipos de valores numéricos que pueden tomar estas variables cuantitativas.

El número de alumnos, por ejemplo, tiene sentido para valores mayores a 0 y enteros, es decir, x = 0,1,2,3...n, mientras que los tiempos de Pole Position en Q3 solo pueden tomar valores mayores a 0 y tener valores decimales.

Estos valores son muy importantes en la F1, ya que el menor de los tiempos es quien se lleva la primera posición de arranque en la carrera.

En el siguiente video, se comparan las vueltas de clasificación de Max Verstappen y Charles Leclerc durante el Gran Premio de los Países Bajos de 2022:


Consejo para diferenciar los tipos de variables

Un tip para diferenciar entre un tipo de variable y otro es el siguiente:

  • Cualitativo: "Calidad" o característica.
  • Cuantitativo: "Cantidad" o número.

Variables cuantitativas y sus diferentes tipos

Una variable discreta puede tomar sólo un número finito o contable de valores. Una variable continua puede tomar infinitamente muchos valores correspondientes a los puntos en un intervalo de recta. Discreta se refiere a las brechas discretas entre los posibles valores que la variable puede tomar. Por ejemplo, el número de miembros de una familia, el número de ventas de automóviles, el número de productos defectuosos en un lote de producción. Por otra parte, las variables continuas son todas aquellas que pueden tomar valores en cualquier punto a lo largo de un intervalo de recta. Por ejemplo la estatura de una persona, el ancho de un cabello, el tiempo de cada conductor en un circuito, etc.


Consejo para diferenciar una variable discreta de una variable continua

Un tip para diferenciar entre un tipo de variable y otro es el siguiente:

  • Discreta: "Factible" de poner en una lista.
  • Continua: "No factible" de poner en una lista.

Nota: La imagen "tipos_de_datos.png" no se pudo incluir directamente ya que es un archivo local. Deberías asegurarte de que esta imagen esté accesible en la misma carpeta o una subcarpeta 'Estadistica' relativa a tu archivo HTML. Tipos de Datos


1.3 Gráficas

Una gráfica dice más que mil palabras

1.3.1 Gráficas para datos categóricos

Una vez recolectados los datos, estos pueden consolidarse y resumirse para mostrar información como por ejemplo:

Por lo anterior, se puede construir una tabla estadística que se puede usar para mostrar los datos gráficamente como una distribución de datos. Sin embargo, en ocasiones los datos son enormes y poner todos los datos en una tabla dificultaría la lectura del público objetivo, por lo anterior, se emplean gráficos que ayudan a mejorar la lectura de los mismos, la elección del gráfico es una parte importante y depende del tipo de datos que se esté analizando.

Cuando la variable de interés es cualitativa, la tabla estadística es una lista de las categorías siendo consideradas junto con una medida de la frecuencia con que se presenta cada valor. Se puede medir la frecuencia en tres formas diferentes:

Por ejemplo, decimos que n representa el número total de mediciones en el conjunto, se puede hallar la frecuencia relativa y el porcentaje usado en estas relaciones.

Frecuencia Relativa

$$ Frecuencia Relative_i = \frac{f_i}{n} $$

Porcentaje

$$ Porcentaje_i = \left( \frac{f_i}{n} \right) \times 100 $$

Donde:

La suma de las frecuencias es siempre n, la suma de las frecuencias relativas es 1 y la suma de los porcentajes es 100%.

Las categorías para una variable cualitativa deben escogerse de modo que:

Por ejemplo, si se estudia el tipo de carne que consumen los mexicanos en 2024, las categorías pueden agruparse según el origen del animal, como pollo, res, cordero, cerdo, pescado y otras. La categoría "otras" incluye carnes que no provienen de animales de granja, diferenciándose de las mencionadas anteriormente.

Para ilustrar estos datos, se puede utilizar una gráfica de pastel, que representa el porcentaje de consumo de cada tipo de carne entre la población mexicana. Por otro lado, una gráfica de barras permite visualizar la distribución del consumo en cada categoría, donde la altura de cada barra (eje y) indica la frecuencia con la que se consume cada tipo de carne. En este caso, la gráfica de barras mostraría el total de kilogramos consumidos por los mexicanos para cada categoría de carne.

Código para generar gráficos de pastel y barras

Instalación de librerías

# Se instalan las librerías necesarias, en este caso pandas que sirve para manejar dataframes y matplotlib para generar gráficos.
%pip install pandas matplotlib

Código para generar gráficos

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

# Datos de consumo de carne en México (2024)
data = {
    'Tipo de Carne': ['Pollo', 'Res', 'Cerdo', 'Pescado', 'Cordero', 'Otras'],
    'Consumo Total (kg)': [3200000, 2500000, 1800000, 800000, 400000, 300000]
}
df = pd.DataFrame(data)

print("Tabla de Datos Inicial:\\n")
print(df)
print("\\n")

# Calcular la frecuencia relativa y el porcentaje
total_consumo = df['Consumo Total (kg)'].sum()
df['Frecuencia Relativa'] = df['Consumo Total (kg)'] / total_consumo
df['Porcentaje (%)'] = df['Frecuencia Relativa'] * 100

print("Tabla con Frecuencia Relativa y Porcentaje de Consumo de Carne en México (2024):\\n")
print(df)
print("\\n")

# --- Gráfica de Pastel ---
plt.figure(figsize=(10, 7))
plt.pie(df['Consumo Total (kg)'], labels=df['Tipo de Carne'], autopct='%1.1f%%', startangle=140, colors=plt.cm.Paired.colors)
plt.title('Distribución Porcentual del Consumo de Carne en México (2024)')
plt.axis('equal') # Equal aspect ratio ensures that pie is drawn as a circle.
plt.show()

# --- Gráfica de Barras ---
plt.figure(figsize=(12, 7))
plt.bar(df['Tipo de Carne'], df['Consumo Total (kg)'], color=plt.cm.viridis.colors)
plt.xlabel('Tipo de Carne')
plt.ylabel('Consumo Total (kg)')
plt.title('Consumo Total de Carne por Tipo en México (2024)')
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.show()

# Gráfica de barras doble (población por sexo) - Ejemplo del cuaderno original
# Datos de ejemplo para la gráfica de población por sexo (adaptado del snippet original)
years = np.array([1910, 1920, 1930, 1940, 1950, 1960, 1970, 1980, 1990, 2000, 2010, 2020])
hombres = np.array([48.5, 48.7, 49.0, 49.3, 49.5, 49.6, 49.7, 49.8, 49.9, 50.0, 48.6, 48.5]) # Porcentajes de ejemplo
mujeres = np.array([51.5, 51.3, 51.0, 50.7, 50.5, 50.4, 50.3, 50.2, 50.1, 50.0, 51.4, 51.5]) # Porcentajes de ejemplo

x = np.arange(len(years))
width = 0.35

fig, ax = plt.subplots(figsize=(14, 8))
bar_labels = ['Hombres', 'Mujeres']
bar_colors = ['#1f77b4', '#ff7f0e']

ax.bar(x - width/2, hombres, width, label=bar_labels[0], color=bar_colors[0], alpha=0.7)
ax.bar(x + width/2, mujeres, width, label=bar_labels[1], color=bar_colors[1], alpha=0.7)

# Personalizar el gráfico
ax.set_xlabel("Año")
ax.set_ylabel("Porcentaje")
ax.set_title("Evolución de la población por sexo (1910 - 2020)")
ax.legend(title="Sexo", loc="upper left")
ax.set_xticks(x)
ax.set_xticklabels(years, rotation=45)

# Mostrar el gráfico
plt.show()

Referencias