09 Jul
Clasificación de las Variables Estadísticas
Las variables estadísticas se pueden clasificar según diferentes criterios:
Nivel o Escala de Medición
- Variable Nominal: Clasifica los datos en categorías sin un orden inherente.
- Ejemplo: Estado civil (soltero, casado, viudo, otro).
- Variable Ordinal: Clasifica los datos en categorías con un orden significativo, pero las diferencias entre los valores no son cuantificables.
- Ejemplo: Nivel educacional (básica, media, superior).
- Variable de Intervalo: Posee un orden y las diferencias entre los valores son significativas, pero el cero es arbitrario (no indica ausencia total de la característica).
- Ejemplo: Evaluación de un producto (escala del 1 al 10).
- Variable de Razón: Posee un orden, las diferencias son significativas y el cero es absoluto (indica ausencia total de la característica). Permite realizar operaciones de razón.
- Ejemplo: Ingreso mensual, número de hijos.
Tamaño del Recorrido
- Variable Discreta: Sus valores son numerables, generalmente enteros.
- Ejemplo: Número de experimentos exitosos (1, 2, 3, …, ∞).
- Variable Continua: Sus valores no son numerables y pueden tomar cualquier valor dentro de un intervalo.
- Ejemplo: Ingreso mensual (aunque a menudo se discretiza, conceptualmente es continua), altura, peso.
Orientación Descriptiva
- Variable Predictora (Independiente): Se utiliza para predecir o explicar los cambios en otra variable.
- Variable Predicha (Dependiente): Es la variable cuyo comportamiento se busca explicar o predecir.
Tabulación de Datos Estadísticos
La tabulación implica organizar los datos en tablas de frecuencia. Se definen las siguientes frecuencias:
- Frecuencia Absoluta (ni): Número de casos que corresponden a cada valor de la variable.
- Frecuencia Relativa (Proporción) (fi = ni / n): Proporción de casos que le corresponde a cada valor de la variable.
- Frecuencia Absoluta Acumulada (Ni): Número de casos iguales o menores que un cierto valor.
- Frecuencia Relativa Acumulada (Fi = Ni / n): Proporción de casos iguales o menores que un cierto valor.
Tabulación Unidimensional
Se refiere a la organización de datos para una sola variable.
Caso 1: Variable Discreta y Nominal
Tabla de frecuencia básica: [ Variable | ni | fi ]
Caso 2: Variable Discreta y Ordinal/Intervalo/de Razón
Tabla de frecuencia completa: [ Variable | ni | fi | Ni | Fi ]
Caso 3: Variable Continua e Intervalo/de Razón
Se particiona el recorrido en intervalos de clase: [ X’i-1 – X’i ]
- Xi: Marca de clase, punto medio de cada intervalo.
- Ci: Amplitud del intervalo (i = 1, 2, 3, …, p).
- Si Ci = constante → C = ( Xmayor – Xmenor ) / número de intervalos
Tabla de frecuencia para datos agrupados: [ X’i-1 – X’i | ni | fi | Ni | Fi | Xi ]
Representaciones Gráficas
Gráficos para una Distribución (Unidimensional)
Variables Tabuladas:
- Variable Discreta: Gráfico de barras separadas / Gráfico de sectores circulares.
- Variable Continua: Histograma de frecuencia (si C = constante) / Histograma de frecuencia corregido (si C ≠ constante).
Variables No Tabuladas:
- Diagrama de tallo y hoja.
- Diagrama de cajas (Box Plot) con bigotes.
Gráficos para dos Distribuciones (Bidimensional)
- Variable Discreta: Gráfico de barras agrupadas / Gráfico de barras divididas.
- Variable Continua: Histograma de frecuencia (corregido o no).
Medidas de Posición o de Localización
Estas medidas indican el valor central o la posición de los datos en una distribución.
Media Aritmética (&bar;X o M[X])
(Aplicable a variables de intervalo/de razón)
- Media Simple (datos no tabulados): &bar;X = (x1 + x2 + … + xn) / n = (Σ xi) / n
- Media Ponderada (datos tabulados): &bar;X = (Σ xi ni) / n = Σ xi fi (donde xi es el valor de la variable o la marca de clase Xi)
Propiedades de la Media Aritmética:
- Σ (Xi – &bar;X) = 0
- Σ (Xi – &bar;X)2 es mínima.
- Si Y = aX + b, entonces &bar;Y = a&bar;X + b.
- Media Estratificada: &bar;Xtotal = ( &bar;X1n1 + &bar;X2n2 + … + &bar;Xpnp ) / ( n1 + n2 + … + np ) = ( Σ &bar;Xi ni ) / n.
- Estratos: Media del estrato = &bar;Xi; Tamaño del estrato = ni.
Mediana (Me[X])
(Aplicable a variables ordinales/de intervalo/de razón)
Valor que divide la distribución en dos grupos con igual número de datos.
- Datos sin Tabular:
- Si el número de datos (n) es impar: Es el valor central.
- Si el número de datos (n) es par: Es el promedio de los dos valores centrales.
- Datos Tabulados:
- Variable Discreta: Se busca el valor cuya frecuencia acumulada supera o iguala n/2.
- Variable Continua (datos agrupados): Me = X’j-1 + Cj × ( (n/2 – Nj-1) / nj )
Propiedades de la Mediana:
- La Mediana depende de los valores centrales.
- Si Y = aX + b, entonces Me(Y) = a Me(X) + b.
Percentiles (Pp)
Valores de la variable que superan un cierto porcentaje (p) de los datos.
- Datos sin Tabular: Se ordenan los datos y se busca la posición correspondiente. La Mediana es el Percentil 50 (P50).
- Datos Tabulados (datos agrupados): Pp = X’j-1 + Cj × ( ( (np/100) – Nj-1 ) / nj )
Moda (Mo[X])
(Aplicable a todas las variables)
Valor de la variable o marca de clase (Xi) con mayor frecuencia.
Propiedad de la Moda:
- Si Y = aX + b, entonces Mo(Y) = a Mo(X) + b.
Medidas de Dispersión o de Variabilidad
Indican cómo están distribuidos o cuán dispersos están los valores de la variable (aplicable a variables cuantitativas).
Rango
Mayor diferencia entre los valores de la variable: Xmayor – Xmenor.
Amplitud Intercuartílica (AIQ)
Mayor diferencia que existe entre el 50% de los valores centrales: Q3 – Q1 = P75 – P25.
Varianza (σ2 o s2)
Varianza Poblacional (σ2(X)):
σ2(X) = Σ (Xi – &bar;X)2 / n = ( Σ Xi2 – n(&bar;X)2 ) / n = &bar;X2 – (&bar;X)2
Varianza Muestral (s2(X)):
s2(X) = Σ (Xi – &bar;X)2 / (n – 1) = ( Σ Xi2 – n(&bar;X)2 ) / (n – 1)
Propiedad de la Varianza:
- Si Y = aX + b, entonces V[Y] = a2 V[X].
Desviación Típica o Estándar (σ o s)
- Poblacional: σ(X) = +(σ2(X))1/2
- Muestral: s(X) = +(s2(X))1/2
La varianza (σ2(X)) y la varianza muestral (s2(X)) se utilizan para comparar la dispersión de dos o más distribuciones si:
- La unidad de medición es la misma.
- Las medias aritméticas son iguales.
Si estas condiciones no se cumplen, se utiliza el Coeficiente de Variación.
Coeficiente de Variación o de Variabilidad (CV[X])
- Poblacional: CV[X] = σ(X) / &bar;X
- Muestral: CV[X] = s(X) / &bar;X
Si CV[Xa] < CV[Xb], entonces existe más dispersión en CV[Xb] y CV[Xa] es más homogénea.
CV[X] × 100: Porcentaje de variabilidad.
Medidas Estadísticas en Distribuciones Bidimensionales
Estudian el comportamiento conjunto de dos variables (X, Y).
1) Medidas Marginales
Son las mismas medidas que en el caso unidimensional, aplicadas a cada variable por separado.
2) Medidas Condicionales
Son las mismas medidas que en el caso unidimensional, calculadas para una variable dado un valor específico de la otra.
- Media Aritmética Condicional: M[X/Y = Yj] = &bar;XY=Yj
- Varianza Condicional: V[X/Y = Yj]
3) Medidas Conjuntas
Estudian conjuntamente el comportamiento de (X, Y).
Media Aritmética Conjunta de (X, Y) (&bar;XY o M[X,Y])
- Datos no tabulados: &bar;XY = (Σ Xi Yi) / n
- Datos tabulados: &bar;XY = (Σ Σ Xi Yi nij) / n
Covarianza (Cov[X,Y])
Datos no tabulados:
- Poblacional: Cov[X,Y] = Σ (Xi – &bar;X)(Yi – &bar;Y) / n = ( Σ Xi Yi / n ) – ( &bar;X &bar;Y )
- Muestral: Cov[X,Y] = Σ (Xi – &bar;X)(Yi – &bar;Y) / (n – 1) = ( Σ Xi Yi – n &bar;X &bar;Y ) / (n – 1)
Cuando existe asociación lineal entre X e Y, Cov[X,Y] indica el sentido:
- Directa: Si Cov[X,Y] > 0
- Inversa: Si Cov[X,Y] < 0
- No correlacionadas linealmente: Si Cov[X,Y] = 0 (X e Y no están correlacionadas linealmente).
Coeficiente de Correlación Lineal (Pearson) (ρX,Y o r)
(r: en calculadora)
- Poblacional: ρX,Y = Cov[X,Y] / (σ(X)σ(Y))
- Muestral: rX,Y = Cov[X,Y] / (s(X)s(Y))
Interpretación del Coeficiente de Correlación Lineal:
- Si ρX,Y = 1 → Asociación lineal directa y perfecta.
- Si ρX,Y = -1 → Asociación lineal perfecta e inversa.
- Si ρX,Y = 0 → No existe asociación lineal.
Propiedades de la Covarianza:
- a) Cov[X,X] = V[X]
- b) Cov[aX + b; cY + d] = ac × Cov[X,Y]
- c) Cov[aX + bY; cX + dY] = ac × V[X] + bd × V[Y] + (ad + bc) × Cov[X,Y]
- d) V[X+Y] = Cov[X+Y; X+Y] = V[X] + V[Y] + 2Cov[X,Y]
- e) V[X-Y] = Cov[X-Y; X-Y] = V[X] + V[Y] – 2Cov[X,Y]
Deja un comentario