A média é a palavra mais conhecida dentro do maravilhoso mundo da estatística. Utilizada desde o ensino fundamental, ela é útil para diversas aplicações. Na faculdade, descobrimos que ela é ainda mais poderosa, por conta do Teorema Central do Limite e muitas outras propriedades legais.
Mas… em algumas situações, a média não é tão útil. Quando analisamos variáveis assimétricas (ou seja, variáveis cujas observações não ficam em torno de um valor central), a média pode dar um resultado que não faz muito sentido em termos práticos. Nesses casos, faz mais sentido utilizar a mediana. Vamos ver como!
Como calcular a média?
A média é calculada pela simples soma dos valores de um conjunto de números, e depois dividido pela quantidade de observações.
No código:
numeros <- c(3, 4, 5, 7, 2)
soma <- sum(numeros)
n <- length(numeros)
(media <- soma / n)
#> [1] 4.2
Created on 2021-06-01 by the reprex package (v2.0.0)
Como calcular a mediana?
A mediana é calculada ordenando-se os números do conjunto e depois escolhendo o valor que está no meio.
No código:
numeros <- c(3, 4, 5, 7, 2)
numeros_ordenados <- sort(numeros)
# temos 5 números, então o índice do meio é 3!
(mediana <- numeros_ordenados[3])
#> [1] 4
Created on 2021-06-01 by the reprex package (v2.0.0)
Quando o número de itens é par, temos dois valores “no meio”. A mediana nesse caso é um valor intermediário entre esses valores, e podemos ter várias estratégias para escolhê-lo. Usualmente, utiliza-se a média entre esses dois valores.
numeros_par <- c(3, 4, 5, 7, 2, 6)
(numeros_ordenados <- sort(numeros_par))
#> [1] 2 3 4 5 6 7
# media entre os dois do meio
median(numeros_par, type)
#> Error in median.default(numeros_par, type): object 'type' not found
# outros possíveis métodos
quantile(numeros_par, probs = .5, type = 1)
#> 50%
#> 4
quantile(numeros_par, probs = .5, type = 2)
#> 50%
#> 4.5
Created on 2021-06-01 by the reprex package (v2.0.0)
Exemplo
Digamos que você esteja em seu escritório com 10 pessoas, e vocês começam a comparar seus salários.
Nesse caso, os valores da média e da mediana são muito próximos:
salarios <- c(1500, 2000, 5000, 3000, 7500,
1000, 3500, 4000, 6000, 1500)
(media <- mean(salarios))
#> [1] 3500
(mediana <- median(salarios))
#> [1] 3250
Created on 2021-06-01 by the reprex package (v2.0.0)
Aí entra a Oprah Winfrey no seu escritório. O salário dela é de 130 milhões de reais por mês (dependendo do valor do dólar)!
Agora, a média será:
salarios_oprah <- c(1500, 2000, 5000, 3000, 7500,
1000, 3500, 4000, 6000, 1500,
125000000)
(media <- mean(salarios_oprah))
#> [1] 11366818
Created on 2021-06-01 by the reprex package (v2.0.0)
Ou seja, a média de salários do escritório é de 11 milhões. Quem dera! Mas não parece muito real. Na verdade, todas as pessoas do escritório têm salários muito diferentes da média, inclusive a Oprah.
Agora vamos ver a mediana:
salarios_oprah <- c(1500, 2000, 5000, 3000, 7500,
1000, 3500, 4000, 6000, 1500,
125000000)
(mediana <- median(salarios_oprah))
#> [1] 3500
Created on 2021-06-01 by the reprex package (v2.0.0)
Parece bem melhor, não é mesmo? A presença da Oprah, ao invés de distorcer completamente nossa estatística, apenas andou uma casinha. Essa propriedade da mediana é a robustez: ela é mais resistente a variáveis assimétricas.
Na jurimetria, usualmente recomendamos utilizar a mediana quando analisamos tempos e valores. Essas variáveis podem ser altamente assimétricas, tornando a mediana uma medida mais útil para resumir os dados.
E, claro: média e mediana são apenas medidas de posição. Não se esqueça das medidas de variabilidade! Mas isso fica para outro tópico.