Estadística y estudios estadísticos V

 

5. Todos los datos no son iguales: dispersión de los datos

Caso práctico

Observa los datos recogidos en estos dos estudios estadísticos:


Variable 1:



NIVEL DE SATISFACCIÓN CON LA IMAGEN CORPORAL EN CIERTA CIUDAD

  • Población: habitantes de Megusto con edades entre 11 y 40 años.
  • Muestra: 230 habitantes de diversas edades, estamentos sociales y profesiones.
  • Pregunta: ¿Qué nivel de satisfacción con su imagen tiene usted (de 0 a 10)?
Nivel de satisfacciónFrecuencia absoluta
056
120
215
32
41
576
639
72
86
93
10?

Variable 2:

INFLUENCIA DE LOS CÁNONES DE BELLEZA IMPUESTOS POR LASOCIEDAD COMO CAUSA DE LA ANOREXIA Y/O LA BULIMIA

  • anorexia

    Fotografía en  Wikimedia commons de Lars Aronsson. Licencia cc
    Población: habitantes de Nocomono con edades entre 11 y 40 años que han padecido o padecen trastornos alimenticios.
  • Muestra: 230 habitantes de diversas edades y distintos estamentos sociales y profesiones que padecen o han padecido anorexia o bulimia.
  • Pregunta: ¿Del cero al diez, cómo califica la influencia de los cánones de belleza impuestos por la sociedad como causa de su trastorno?

Influencia de los cánones de bellezaFrecuencia absoluta
01
12
21
32
42
55
69
720
845
956
1087

Trabajemos con ellos…

  1. ¿Qué valor falta en la tabla primera?
  2. Para ambos estudios, haz un diagrama de barras y halla la media aritmética y la moda.

¿Crees que en ambos casos las medias aritméticas son igual de representativas?
La verdad es que no… Fíjate bien en los diagramas de barras y observa que los datos no están "distribuidos" de la misma manera en los dos ejemplos.

Ahora vas a estudiar que es posible expresar matemáticamente eso de "lo distribuidos que están los datos". Los tres números que vas a aprender a calcular (la varianza, la deviación típica y el coeficiente de variación) indican lo agrupados o alejados que están los valores respecto de la media, y por tanto qué media da información más fiable sobre los datos.


Varianza y desviación típica

Iconos
Imágenes en Wikimedia commons de LGPLy LGPL.
Licencia GNU

Podemos estudiar si los datos de nuestras variables 1 y 2 están, en su conjunto, más o menos cerca de las medias respectivas.

Por ejemplo: En la variable1 quien ha respondido 10 se ha alejado mucho de la media 3.51. En cambio, los 12 que han respondido 3 o 4 se ha acercado bastante a la media. Cuanto más valores cercanos a la media tengamos, más "fiable" es nuestra media ¿verdad?

Existen dos números (parámetros estadísticos) que nos ayudan a MEDIR esta cercanía de los datos a la media, es decir, a medir la dispersión de los datos.

Uno es la varianza, que es la media de las distancias de los valores a la media, al cuadrado.

¿Que te da miedo tanta palabrería…? Pues fíjate bien cómo no es para tanto…

Se hace así:

  • Se calcula la distancia de cada valor a la media, sencillamente restándole al valor la media (para el valor 10 será 10-3,51= 6,49)
  • Se elevan esas distancias al cuadrado (así, 6,492 = 42,1201)
  • Y se hace la media de los resultados como si fuesen valores (las frecuencias serán las originales)

Y si no te gusta el método anterior, ¡Hay otro mejor!

  • Eleva los valores de la variable al cuadrado.
  • Haz la media de los resultados obtenidos.
  • Eleva la media de la variable al cuadrado y restalo del resultado anterior.

Caso práctico

Por ejemplo:

Para la variable 1…

Los valores al cuadrado son:

02 = 0, 12 = 1, 22 = 4, 32 = 9, 42 = 16, 52 = 25, 62 = 36, 72 = 49, 82 = 64, 92 = 81, 102 = 100.

La media de esos resultados es:

(0x56 + 1x20 + 4x15 + 9x2 + 16x10 + 25x76 + 36x39 + 49x2 + 64x+ 81x3 + 100x1) : 230

(0+20+60+18+160+1900+1296+98+384+243+100):230 = 4279:230 = 18,604.


A esa cantidad restamos la media, 3,51, al cuadrado:
18,604-3,512= 6.283.


Luego nuestra varianza es 6.283.

Curiosidad

prohibido

    Imagen elaboración propia

Muy MUY importante

Como es una media de "números al cuadrado" y las cosas al cuadrado son siempre positivas:

LA VARIANZA ES SIEMPRE POSITIVA

Una varianza negativa se considera un "delito matemático"; si te aparece alguna revisa tus cálculos porque te has equivocado seguro.

Si hemos calculado la varianza, la desviación típica es muy fácil de calcular: solo hay que hacer la raíz cuadrada a la varianza.

(Por ejemplo: para la variable1 la desviación típica es la raíz cuadrada de 6,283, que es 2.506).

nos dice la dispersión respecto de la media. ¿Y eso qué significa? Pues, en nuestro ejemplo, que los valores se alejan un promedio de 2.506 puntos respecto de la media, es decir, que muchos de los valores estarán entre 1 y 6 puntos, lo cual puede verse en la tabla y en el gráfico.

Rellenar huecos

Autoevaluación

  1. El valor correcto de la varianza de la variable2 (con dos decimales) es: 
  2. El valor correcto de la desviación típica de la variable2 es: 


Coeficiente de variación

Con los cálculos anteriores...

¿Podemos saber qué media de las dos anteriores es más "fiable"?

Las dos variables tratan cosas muy diferentes, y no podemos establecer la comparación. A priori puede parecer que la segunda variable tiene los datos MENOS DISPERSOS O MÁS AGRUPADOS, ya que su desviación típica es menor… ¿y si una variable estuviese medida en mm y la otra en número de sillas? Está claro que la comparación no es posible… ¿o sí?

Pues con los datos que hemos calculado no, pero sí con otro parámetro estadístico, es decir, otro "numerajo". Pero no te preocupes, es el coeficiente de variación y para calcularlo basta dividir la desviación típica entre la media.

En el ejemplo que estamos desarrollando…

El coeficiente de variación de la variable1 vale 2,506:3,51 = 0,7139.

Rellenar huecos

Autoevaluación

El valor correcto del coeficiente de variación de la variable2 es (con 2 decimales)  .

Por tanto, ahora sí podemos asegurar que los datos de la variable  están mucho más cercanos a la media, la cual es, por tanto, más representativa y fiable.

Comentarios