En la segunda entrega de “Explicando con números” comentaba las distintas formas de describir un conjunto de datos numéricos. Veíamos que existen distintas formas de expresarse, y que no es lo mismo el salario de un “jugador de fútbol promedio” que el “salario promedio de los futbolistas.” De ahí llegábamos a que existen distintos niveles de medición y, por lo tanto, distintas medidas de tendencia central. En este artículo vamos a seguir con estadística descriptiva y nos centraremos en dichos niveles de medición y sus medidas de tendencia central. Vamos a ello.
Niveles de medición
Normalmente, para facilitar las cosas a la persona que se acerca por primera vez a la estadística descriptiva, se habla solamente de tres niveles de medición. Personalmente no creo que haya necesidad de esto, así que aquí vamos a hablar de cuatro distintos niveles de medición, que son: el nominal, el ordinal, el intervalar (de intervalo), y el racional (también llamado de radio o de razón).
El primer nivel de medición, el nominal, es aquel que consta de categorías. Por ejemplo, en las encuestas sociales tenemos muchos ejemplos de datos nominales: sexo (normalmente hombre/mujer en las encuestas), nacionalidad, religión, etcétera. Estos datos, aunque se pueden tratar de forma numérica en el análisis estadístico, no conllevan implícitamente una ordenación numérica, sino que simplemente se refieren a las cualidades de lo observado. Cuando realizamos un clasificación nominal de algo nos interesa que dicha clasificación sea exhaustiva y coherente, lo que significa que una persona/cosa no puede pertenecer a dos categorías al mismo tiempo, y el número de categorías comprende todas las posibilidades existentes. El nivel nominal también se denomina “cualitativo”, y con él se pueden hacer más bien pocas cosas en estadística, lo que no significa que sea complemente insignificante.
El nivel ordinal implica un orden de lo que estamos observando o estudiando. Esto no se aplica, como es lógico, al nivel nominal, ¿qué sentido tiene ordenar sexos, religiones o estados maritales? Los datos de nivel ordinal, pues, se pueden ordenar de mayor o menor, lo que también nos permite hablar de que algo es mayor/menor que otra cosa. De nuevo, las encuestas tienen muchos datos ordinales. Las escalas son, por lo general, datos ordinales. Ejemplo: “¿Cómo de contento/a está con su trabajo?” Y las respuestas podrían ser: “muy poco”, “poco”, “algo”, “mucho”, “extremadamente.” De estos datos podemos decir que “poco contento/a” implica un menor nivel que “mucho” o “extremadamente contento/a.” La categoría “algo” estaría en el medio, y mucha gente gusta de poner una categoría media para marcar el “centro” de las respuestas, aunque otra mucha gente no gusta de tener un número impar de categorías de respuesta. Otro ejemplo de datos/variables de nivel ordinal sería la clase social.
El nivel intervalar complementa, de alguna forma, al nivel ordinal. Podemos decir que “poco contento/a” es menor que estar “muy contento/a”, pero nos es imposible decir qué distancia separa a “poco” y “mucho.” De la misma forma, podemos decir que “clase trabajadora” está por debajo de “burguesía” en la escala socio-económica, pero no podemos cuantificar dicha diferencia. Por lo tanto, los datos/variables de nivel intervalar se pueden ordenar como los de nivel ordinal, pero además se puede cuantificar la distancia que separa cada categoría. La temperatura es un ejemplo de variable intervalar: una habitación a 20 grados Celsius es más caliente que una a 15 grados Celsius, y las separa 5 grados Celsius.
No obstante, el nivel intervalar no es tan “completo” como pueda parecer, pues no podemos decir que una temperatura sea el doble que otra. Por ejemplo: no podemos decir que la temperatura de una habitación es el doble que la de otra tan a la ligera. Si tenemos 30 grados Celsius no podemos decir que es el doble que los 15 grados Celsius de otra habitación, pues otra persona puede medir la temperatura en grados Fahrenheit. Si esto sucede es porque las variables de nivel de intervalo (como la temperatura) no tienen un valor cero inherente, sino que es arbitrario y no significa ausencia de nada. Por ello no podemos decir que una temperatura es el doble, o la mitad, que otra. No obstante, los intervalos de medición son constantes y nos permiten hacer operaciones aritméticas como sumas y restas.
El último nivel es el racional, en el cual sí que se puede decir que algo es el doble (o la mitad) que otra cosa. Hay que pensar en el nivel racional como un nivel intervalar con un cero absoluto significativo. También es útil pensar en el nivel racional como “números” según se presentan en el ideario común. Un ejemplo de variable/dato racional es el salario. Al tener un cero absoluto, estas variables racionales se pueden también multiplicar y dividir (os habréis dado cuenta que los niveles superiores incluyen las características de los anteriores más algunos añadidos). Otro ejemplo de variable/dato racional es la edad: si yo tengo 40 años y tú tienes 20, entonces mi edad es el doble que la tuya (y ambas empiezan en 0 años). Lo mismo se puede decir de los salarios: si yo gano 400 euros al mes y tú ganas 800, entonces tú ganas el doble que yo al mes. Además, como es obvio estos datos se pueden ordenar de mayor a menor: tu salario de 800 euros está por encima del mío (400 euros).
Modas, medianas, y medias
Cada nivel de medición tiene una medida de tendencia central propia, aunque los niveles superiores suman las medidas de los niveles anteriores. En el artículo anterior ya dimos un primer vistazo a las medidas de tendencia central, recordemos: moda, mediana, y media. La moda es simplemente el valor más popular, o la observación más repetida. Pongamos que tenemos una lista de las revueltas sociales sucedidas en la Francia del siglo XIX clasificadas por el principal motivo que las promovió:
\[gobierno, precios pan, guerra, precios pan, gobierno, precios pan\]
En este ejemplo los datos son nominales (recordemos: categorías que hablan de la cualidad de algo) y el valor modal, o moda, es \(precios pan\) pues es la categoría más observada. Otro ejemplo: pongamos que tenemos clasificadas a las personas de nuestra asamblea por edades:
\[26, 25, 30, 19, 32, 24, 23, 21, 29, 20, 24, 32, 25\]
En este ejemplo estamos hablando de edades (recordemos que es una variable racional), y tenemos tres modas, \(32\), \(25\), y \(24\). Los valores modales, de por sí, nos dicen poco sobre los datos que tenemos. Simplemente señalan las observaciones más recurrentes en nuestra muestra (que no obstante es útil para describir un fenómeno).
La mediana, por su parte, señaliza la observación que tiene antes y después (por arriba y por abajo) el mismo número de observaciones. Es decir, la mediana separa el 50% más bajo del 50% más alto, lo que implica que los datos que tenemos pueden ser ordenados de alguna manera (por lo que no podemos obtener la mediana de variables nominales). Su cálculo es útil para ver cuál es el valor central de la distribución de observaciones ordenadas. Usemos un poco de álgebra esta vez para ver su cálculo. Digamos que tenemos una lista de protestas sociales ordenadas por el número de demandas exigidas al gobierno de turno:
\[1, 3, 3, 4, 6\]
En este ejemplo la mediana es 3. Pero no cualquier 3, pues hay dos protestas que exigieron 3 demandas. El valor de la mediana, pues, sería el 3 que corresponde, digamos, a la protesta social ocurrida en la ciudad de Barcelona (que resulta ser la observación número 3). Al haber un número impar de observaciones el cálculo de la mediana es:
\[\mu_{1/2}=x_{(n+1)/2}\]
donde la mediana es designada por \(\mu_{1/2}\) la cual equivale a la posición \(x_{(n+1)/2}\) (recordemos que \(n\) es el número de observaciones). Tomemos de nuevo el ejemplo de las protestas sociales y las demandas exigidas. Aplicando la sencilla fórmula tenemos que:
\[\mu_{1/2}=x_{(5+1)/2}=x_{3}=3\]
donde \[x_{3}\]
es la observación que ocupa la posición número 3 en nuestra lista ordenada de ciudades y protestas sociales. Ahora imaginemos que tenemos 6 ciudades (es decir, 6 protestas) en vez de 5:
\[1, 3, 3, 4, 6, 8\]
Al haber un número par de observaciones el cálculo de la mediana sigue la siguiente forma:
\[\mu_{1/2}=\frac{x_{n/2}+x_{(n/2)+1}}{2}\]
que es lo mismo que calcular la media aritmética de los dos valores centrales (en nuestro ejemplo estos valores son 3 y 4). El cálculo sería:
\[x_{n/2}=x_{6/2}=x_{3}=3\]
\[x_{(n/2)+1}=x_{(6/2)+1}=x_{4}=4\]
\[\mu_{1/2}=\frac{3+4}{2}=3.5\]
En este ejemplo vemos que la mediana es 3.5. La mediana es importante en estadística porque es una medida bastante robusta. Es decir, la mediana no se ve tan afectada por una distribución de valores muy dispersos, por lo que es muy útil para examinar de manera segura los valores centrales de una distribución.
Finalmente, la media (aritmética) es normalmente definida como el valor característico de una distribución, y su cálculo se realiza de la siguiente manera:
\[\bar{x}=\frac{1}{n}\sum\limits_{i=1}^n x_{i}=\frac{x_{1}+x_{2}+x_{3}+\ldots +x_{n}}{n}\]
donde vemos que la media \[\bar{x}\]
es simplemente el valor que resulta de sumar todos los valores de nuestras observaciones, y dividir por el número de observaciones (nada nuevo para nadie, supongo). La media aritmética es útil para describir variables racionales: edades, salarios, etcétera, pero no podemos obtener la media de variables nominales u ordinales. No obstante, hay un problema bastante grande cuando describimos cosas con la media aritmética, y es que ésta es muy sensible a distribuciones poco simétricas (o muy dispersas), resultando así en valores que no dicen mucho. Por ejemplo, digamos que tenemos una población de 6 personas y las ordenamos según el número de casas que tienen:
\[0, 1, 1, 1, 4, 10\]
En este ejemplo la media es \(2,83\) casas. Lo primero que tenemos que saber es que no se pueden tener 2,83 casas (no al menos en nuestro ejemplo). Lo segundo que podemos observar es que la media no refleja muy bien la realidad social de nuestra mini-sociedad. Podemos ver que el número de casas (\(17\)) no está muy bien distribuido entre las 6 personas que viven en esta mini-sociedad: una persona no tiene techo, mientras que otra tiene diez casas. No obstante, si solamente tuviéramos el dato de 2,83 casas podríamos estar inclinados a pensar que en esta mini-sociedad la gente vive relativamente bien (pero al ver la distribución en su totalidad, su dispersión, y rango, nos damos cuenta que es una mini-sociedad muy injusta).
Tomando el mismo ejemplo de las casas podemos usar la moda y la mediana para describir de una manera más acertada la composición de esa mini-sociedad. La moda es \(1\), lo que nos indica que el número de casas más observado (por persona) es 1. La mediana también toma el valor 1, y en este caso (al estar los datos ordenados) nos indica que la distribución de casas no es muy igualitaria.
Resumen y una última cuestión
Como hemos visto, existen 4 niveles de medición distintos y tres medidas de tendencia central. Las variables racionales pueden darnos la moda, la mediana y la media aritmética, pero las variables ordinales solamente nos dan la moda y la mediana (y las variables nominales solamente la moda). El ejemplo de la mini-sociedad y las casas nos muestra que una única descripción de algo puede dar lugar a ideas sesgadas, por lo que es muy importante tener más datos de aquello que estamos estudiando (los periódicos, por ejemplo, pecan muchas veces de simplificar y crear ideas sesgadas cuando nos muestran datos estadísticos).
No obstante, os habréis percatado que una variable de nivel racional se puede medir en el nivel ordinal o nominal. Es decir, podemos tomar una variable de nivel superior y “rebajarla” a un nivel inferior. Esto es útil es ocasiones muy específicas, pero por lo normal no es deseable hacerlo dado que limitamos el análisis estadístico de los datos. Con palabras sencillas: se pueden hacer más cosas en estadística con una variable racional que con una nominal. Sin embargo, muchas veces nos puede resultar difícil establecer el nivel de medición de algo. Por ejemplo, digamos que estamos estudiando las subvenciones que el gobierno central da a distintos municipios de una región en relación al número de personas paradas existentes. Podríamos ordenar estos datos y decir que el municipio A recibió 5 subvenciones, y que el municipio B recibió 3 (etcétera). Podríamos tener la obvia tentación de pensar que esta variable (subvenciones recibidas) es ordinal, pero estudiando un poco más el caso vemos que en realidad las subvenciones se otorgaron vía favores políticos a caciques afines al gobierno central, por lo que algunos municipios con menos gente parada recibió más subvenciones de lo debido. En este hipotético caso (o no tan hipotético) tendríamos que plantearnos seriamente si podemos tratar en nuestro análisis estadístico dicha variable de forma ordinal. Ciertamente podríamos, pero tal vez llegaríamos a resultados poco reales si aplicamos alguna técnica estadística más avanzada.