domingo, 7 de junio de 2020

Medidas de tendencia central. Medidas de dispersión. Medidas de posición. Forma de distribución: asimetría y curtosis.


RESUMEN NUMÉRICO DE UNA SERIE DE ESTADÍSTICAS


Además de las tablas podemos resumir una serie de observaciones mediante “estadísticos”, que son una o varias funciones de los datos observados.Existen tres grandes tipos de medidas estadísticas:

            Medidas de tendencia central: dan idea de los valores alrededor de los cuales el resto de los datos tienen tendencia a agruparse. Se usan la MEDIA, la MEDIANA y la MODA.
            Medidas de posición: dividen un conjunto ordenado de datos en grupos con la misma cantidad de individuos. Se usan los CUARTILES, los DECILES y los PERCENTILES.
            Medidas de dispersión o variabilidad: dan información acerca de la heterogeneidad de nuestras observaciones .Se usa el RANGO, la DESVIACIÓN MEDIA, la VARIANZA, la DESVIACIÓN TIPICA y el COEFICIENTE DE VARIACIÓN.

MEDIDAS DE TENDENCIA CENTRAL

Media aritmética o media, (x) Se calcula para variables cuantitativas y se trata del centro geométrico o de gravedad de nuestros datos. Es la suma de todos los valores de la variable observada entre el total de observaciones. Es la media más básica y calculada en estadística descriptiva y siempre va acompañado de la desviación típica.


Propiedades de la media:

1.           La suma de las desviaciones respecto de la media es igual a cero.
2.           La media no se altera por una transformación lineal de escala, por ejemplo, si a un conjunto de datos cuya media es X, se le suma a cada dato una constante K, la media aumenta en K unidades. Otro ejemplo sería si en un conjunto de datos cuya media es X, se multiplica cada dato por una constante K, la media queda multiplicada por K.
3.           Es muy sensible a las puntuaciones extremas.

Es interesante saber que existen otro tipo de medias como lo son la media geométrica (G), la media armónica (H) o la media aritmética ponderada (x).







Mediana
La mediana es la puntuación que ocupa la posición central de la distribución, es decir, es un valor que describe una posición. Concretamente, es el valor de la observación tal que un 50% de los datos es menor y otro 50% es mayor, por lo tanto, es el punto medio de la distribución en cuanto a la posición. Para poder hallarla necesitamos que nuestros datos estén ordenados, de forma creciente o decreciente.
Si la media y la mediana son iguales, la distribución de la variable es simétrica. A diferencia de la media aritmética, la mediana es más robusta y menos sensible a los valores extremos. Cuando la muestra posee muy pocos datos, o existen valores extremos o datos censurados-truncados, debemos calcular siempre la mediana.

Moda
Es el valor con mayor frecuencia en una distribución (que más veces se repite). Las distribuciones que contienen una sola moda se llaman UNIMODALES y si hay más de una  se dice que la muestra es BIMODAL (dos modas) o MULTIMODAL (más de dos).
Se puede calcular para cualquier tipo de variable y es la medida de tendencia central menos empleada.
En una distribución unimodal simétrica, los valores de la media aritmética, mediana y moda coinciden.

Si los datos están agrupados, se habla de CLASE MODAL y corresponde al intervalo en el que el cociente entre la frecuencia relativa y la amplitud es mayor (hi/ci).

MEDIDAS DE POSICIÓN

Cuantiles

Se calculan para VARIABLES CUANTITATIVAS y, al igual que la mediana, sólo tienen en cuenta la posición de los valores en la muestra. Se define el cuantil de orden “n” como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada n. Por  debajo de este valor "n" siempre habrá una frecuencia acumulada de datos que será de un tanto por ciento en función de si usa percentiles, deciles o cuartiles.
Los cuantiles más usuales son los PERCENTILES, los DECILES y los CUARTILES, según dividan la muestra ordenada en 100, 10 ó 4 partes, respectivamente.


Percentiles

Dividen la muestra ordenada en 100 partes. Los percentiles son los 99 puntos o valores que dividen la distribución en cien partes iguales. Se representan por P(n). Ejemplo: P70 es el valor de la variable que es igual o deja por debajo de sí al 70% del total de  las  puntuaciones.
Para buscar la posición de un percentil en una serie de datos agrupados, buscamos el intervalo en el que la frecuencia relativa acumulada (Hi) sea superior al valor del percentil.

El valor del P50 corresponde al valor de la mediana.

Deciles

Dividen la muestra ordenada en 10 partes. Los deciles son los 9 valores que dividen a la distribución en diez partes iguales y cada parte incluye el 10% de los valores de la distribución. Se representan por la letra D.
El valor del D5 corresponde al valor de la mediana y, por tanto, al del P50.
                  Cuartiles
Dividen la muestra ordenada en 4 Son los 3 valores que dividen la distribución en cuatro partes iguales, cada parte incluye el 25% de los valores de dicha variable. Se representan por Q1, Q2 y Q3.

El Q1, primer cuartil indica  el valor que ocupa una posición en la serie numérica de forma  que el 25% de las observaciones son menores y que el 75% son mayores.
El Q2, segundo cuartil indica el valor que ocupa una posición en la serie numérica de forma que el 50% de las observaciones son menores y que el 50% son mayores. Por tanto, el Q2 COINCIDE con el valor del D5, con el valor de P50 y con el valor de la MEDIANA.
El Q3, tercer cuartil indica el valor que ocupa una posición en la serie numérica de forma    que el 75% de las observaciones son menores y que el 25% son mayores.
El Q4, cuarto cuartil indica el valor mayor que se alcanza en la serie numérica.


MEDIDAS DE DISPERSIÓN
Aportan información que no obtenemos con otros estadísticos. Se usan cuando la  información aportada por las medidas de tendencia central es limitada y necesito otros estadísticos que me den más información para distinguir entre dos series que serían iguales usando estadísticos centrales.

Rango o recorrido (R)
Es la medida de dispersión más simple y consiste en tomar la puntuación mayor y restarle la puntuación menor. Es el recorrido de una variable.
La principal limitación del rango es que al tener en cuenta solamente los valores más alto y más bajo, se ve dramáticamente afectado por los valores extremos.

     RECORRIDO INTERCUARTÍLICO (RI). Es la diferencia entre el tercer y el primer cuartil= |Q3- Q1|.
     RANGO SEMI INTERCUARTIL/DESVIACIÓN CUARTIL/ESPECTRO SEMI CUARTIL. En su cálculo utiliza los valores intermedios y no extremos, lo que le confiere mayor estabilidad que el rango y se ve menos afectado por valores extremos.



 Desviación media (DM)
Es la media aritmética de las distancias de cada observación con respecto a la media de la muestra.

Varianza (S2)


Es la media de los cuadrados de las diferencias entre cada valor de la variable y la media aritmética de la distribución.

Características:

Siempre tiene un valor positivo.

Se mide en unidades de la variable estudiada (al cuadrado).
Cuanto menor sea la varianza mayor homogeneidad y menor dispersión (con datos más homogéneos tenemos menos datos extremos).

Desviación típica o estándar (S)

Muy usado en estadística descriptiva junto a la media. Expresa la dispersión de la distribución mediante un valor que siempre es positivo y en las mismas unidades de medida de la variable, siendo la medida de dispersión más utilizada en estadística descriptiva. Cuando los datos están muy alejados de la media, el numerador será grande y la varianza y la desviación típica también lo serán, y viceversa. Al aumentar el tamaño de la muestra, disminuye la varianza y la desviación típica.


Propiedades (muy semejantes a la media).

      La desviación típica será siempre un valor positivo o cero, en el caso de que las puntuaciones sean iguales.
      Si a todos los valores de la variable se les suma un número la desviación típica no varía.
      Si todos los valores de la variable se multiplican por un número la desviación típica queda multiplicada por dicho número.

Observaciones de la desviación típica

      La desviación típica, al igual que la media y la varianza, es un índice muy sensible a las puntuaciones extremas.
      En los casos que no se pueda hallar la media tampoco será posible hallar la desviación típica porque van unidos.
      Cuanta más pequeña sea la desviación típica mayor será la concentración de datos alrededor de la media.

Coeficiente de variación (CV)

También recibe el nombre de variabilidad relativa, puesto que es una medida de dispersión relativa de los datos. Obtengo el matiz para diferenciar entre 2 supuestos. Se calcula dividiendo la desviación típica entre la media de la muestra, y expresado en porcentaje.





El CV es un medida adimensional y nos permite comparar la dispersión o variabilidad de   dos o más grupos. Sin embargo, no debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una cantidad fijada arbitrariamente.

DISTRIBUCIONES NORMALES


En estadística se llama distribución normal, distribución de Gauss o distribución gaussiana,   a una de las distribuciones de probabilidad de variable continua que con más frecuencia aparece en fenómenos reales.


La gráfica de su función de densidad tiene una forma acampanada y es simétrica respecto  de los valores posición central (media, mediana y moda, que coinciden en estas distribuciones). Esta curva se conoce como campana de Gauss.

MEDIDAS DE FORMA

Las medidas de forma indican si la distribución es simétrica (coeficiente de sesgo) y el   grado de apuntamiento, tomando siempre como referencia la curva normal.

Asimetrías

La asimetría es una medida de forma. El coeficiente  de asimetría de una variable es el  grado de asimetría de la distribución de sus datos en torno a su media, es decir, cómo están distribuidos los datos de una forma desigual en torno a la media.
Las distribuciones asimétricas también se llaman SESGADAS, y se caracterizan porque el pico de la misma se encuentra descentrado (no simétrica), apareciendo una cola más larga que la otra. Es adimensional y adopta valores entre -1 y 1.
Interpretación del coeficiente de asimetría:

1.    g 1 = 0 (DISTRIBUCIÓN SIMÉTRICA; existe la misma concentración de valores a la derecha y a la izquierda de la media).
2.    g1 > 0 (DISTRIBUCIÓN ASIMÉTRICA POSITIVA; la cola de la distribución es más larga hacia la derecha y los valores más elevados quedan a la izquierda).
3.    g1 < 0 (DISTRIBUCIÓN ASIMÉTRICA NEGATIVA; la cola de la distribución es más larga hacia la izquierda y los valores más elevados quedan a la derecha).










Curtosis o apuntamiento


Es el pico de la curva. El coeficiente de apuntamiento o curtosis de una variable, sirve para medir el grado de concentración de  los valores que toma en torno a su media. Se elige  como referencia una variable con distribución normal, de modo que para ella el coeficiente  de curtosis es 0. Es una medida adimensional que adopta también valores entre -1 y 1.
Interpretación del coeficiente de apuntamiento:

1.    g 2 = 0 (DISTRIBUCIÓN MESOCÚRTICA; presenta un grado de concentración medio alrededor de los valores centrales de la variable, el mismo que presenta una distribución normal).
2.    g2 > 0 (DISTRIBUCIÓN LEPTOCÚRTICA; presenta un elevado grado de concentración alrededor de los valores centrales de la variable).
3.    g2 < 0 (DISTRIBUCIÓN PLATICÚRTICA; presenta un reducido grado de concentración alrededor de los valores centrales de la variable).

No hay comentarios:

Publicar un comentario

TEMAS 14 AL 17: VISIÓN GENERAL DE LAS TICS. TICS Y SALUD. CUIDADOS 2.0 La sociedad está cada vez más condicionada por el uso de las...