5. Todos los datos no son iguales: dispersión de los datos
Caso práctico
Observa los datos recogidos en estos dos estudios estadísticos:
Variable 1:
NIVEL DE SATISFACCIÓN CON LA IMAGEN CORPORAL EN CIERTA CIUDAD
- Población: habitantes de Megusto con edades entre 11 y 40 años.
- Muestra: 230 habitantes de diversas edades, estamentos sociales y profesiones.
- Pregunta: ¿Qué nivel de satisfacción con su imagen tiene usted (de 0 a 10)?
Nivel de satisfacción | Frecuencia absoluta |
0 | 56 |
1 | 20 |
2 | 15 |
3 | 2 |
4 | 1 |
5 | 76 |
6 | 39 |
7 | 2 |
8 | 6 |
9 | 3 |
10 | ? |
Variable 2:
INFLUENCIA DE LOS CÁNONES DE BELLEZA IMPUESTOS POR LASOCIEDAD COMO CAUSA DE LA ANOREXIA Y/O LA BULIMIA
Población: habitantes de Nocomono con edades entre 11 y 40 años que han padecido o padecen trastornos alimenticios.Fotografía en Wikimedia commons de Lars Aronsson. Licencia cc - Muestra: 230 habitantes de diversas edades y distintos estamentos sociales y profesiones que padecen o han padecido anorexia o bulimia.
- Pregunta: ¿Del cero al diez, cómo califica la influencia de los cánones de belleza impuestos por la sociedad como causa de su trastorno?
Influencia de los cánones de belleza | Frecuencia absoluta |
0 | 1 |
1 | 2 |
2 | 1 |
3 | 2 |
4 | 2 |
5 | 5 |
6 | 9 |
7 | 20 |
8 | 45 |
9 | 56 |
10 | 87 |
Trabajemos con ellos…
- ¿Qué valor falta en la tabla primera?
- Para ambos estudios, haz un diagrama de barras y halla la media aritmética y la moda.
¿Crees que en ambos casos las medias aritméticas son igual de representativas?
La verdad es que no… Fíjate bien en los diagramas de barras y observa que los datos no están "distribuidos" de la misma manera en los dos ejemplos.
Ahora vas a estudiar que es posible expresar matemáticamente eso de "lo distribuidos que están los datos". Los tres números que vas a aprender a calcular (la varianza, la deviación típica y el coeficiente de variación) indican lo agrupados o alejados que están los valores respecto de la media, y por tanto qué media da información más fiable sobre los datos.
Varianza y desviación típica
Imágenes en Wikimedia commons de LGPLy LGPL. Licencia GNU |
Podemos estudiar si los datos de nuestras variables 1 y 2 están, en su conjunto, más o menos cerca de las medias respectivas.
Por ejemplo: En la variable1 quien ha respondido 10 se ha alejado mucho de la media 3.51. En cambio, los 12 que han respondido 3 o 4 se ha acercado bastante a la media. Cuanto más valores cercanos a la media tengamos, más "fiable" es nuestra media ¿verdad?
Existen dos números (parámetros estadísticos) que nos ayudan a MEDIR esta cercanía de los datos a la media, es decir, a medir la dispersión de los datos.
Uno es la varianza, que es la media de las distancias de los valores a la media, al cuadrado.
¿Que te da miedo tanta palabrería…? Pues fíjate bien cómo no es para tanto…
Se hace así:
- Se calcula la distancia de cada valor a la media, sencillamente restándole al valor la media (para el valor 10 será 10-3,51= 6,49)
- Se elevan esas distancias al cuadrado (así, 6,492 = 42,1201)
- Y se hace la media de los resultados como si fuesen valores (las frecuencias serán las originales)
Y si no te gusta el método anterior, ¡Hay otro mejor!
- Eleva los valores de la variable al cuadrado.
- Haz la media de los resultados obtenidos.
- Eleva la media de la variable al cuadrado y restalo del resultado anterior.
Caso práctico
Por ejemplo:
Para la variable 1…
Los valores al cuadrado son:
02 = 0, 12 = 1, 22 = 4, 32 = 9, 42 = 16, 52 = 25, 62 = 36, 72 = 49, 82 = 64, 92 = 81, 102 = 100.
La media de esos resultados es:
(0x56 + 1x20 + 4x15 + 9x2 + 16x10 + 25x76 + 36x39 + 49x2 + 64x6 + 81x3 + 100x1) : 230
(0+20+60+18+160+1900+1296+98+384+243+100):230 = 4279:230 = 18,604.
A esa cantidad restamos la media, 3,51, al cuadrado:
18,604-3,512= 6.283.
Luego nuestra varianza es 6.283.
Curiosidad
Imagen elaboración propia |
Muy MUY importante
Como es una media de "números al cuadrado" y las cosas al cuadrado son siempre positivas:
LA VARIANZA ES SIEMPRE POSITIVA
Una varianza negativa se considera un "delito matemático"; si te aparece alguna revisa tus cálculos porque te has equivocado seguro.
Si hemos calculado la varianza, la desviación típica es muy fácil de calcular: solo hay que hacer la raíz cuadrada a la varianza.
(Por ejemplo: para la variable1 la desviación típica es la raíz cuadrada de 6,283, que es 2.506).
Y nos dice la dispersión respecto de la media. ¿Y eso qué significa? Pues, en nuestro ejemplo, que los valores se alejan un promedio de 2.506 puntos respecto de la media, es decir, que muchos de los valores estarán entre 1 y 6 puntos, lo cual puede verse en la tabla y en el gráfico.
Rellenar huecos
Autoevaluación
Coeficiente de variación
Con los cálculos anteriores...
¿Podemos saber qué media de las dos anteriores es más "fiable"?
Las dos variables tratan cosas muy diferentes, y no podemos establecer la comparación. A priori puede parecer que la segunda variable tiene los datos MENOS DISPERSOS O MÁS AGRUPADOS, ya que su desviación típica es menor… ¿y si una variable estuviese medida en mm y la otra en número de sillas? Está claro que la comparación no es posible… ¿o sí?
Pues con los datos que hemos calculado no, pero sí con otro parámetro estadístico, es decir, otro "numerajo". Pero no te preocupes, es el coeficiente de variación y para calcularlo basta dividir la desviación típica entre la media.
En el ejemplo que estamos desarrollando…
El coeficiente de variación de la variable1 vale 2,506:3,51 = 0,7139.
Rellenar huecos
Autoevaluación
Comentarios
Publicar un comentario