Diferença entre média e mediana

A média é a palavra mais conhecida dentro do maravilhoso mundo da estatística. Utilizada desde o ensino fundamental, ela é útil para diversas aplicações. Na faculdade, descobrimos que ela é ainda mais poderosa, por conta do Teorema Central do Limite e muitas outras propriedades legais.

Mas… em algumas situações, a média não é tão útil. Quando analisamos variáveis assimétricas (ou seja, variáveis cujas observações não ficam em torno de um valor central), a média pode dar um resultado que não faz muito sentido em termos práticos. Nesses casos, faz mais sentido utilizar a mediana. Vamos ver como!

image

Como calcular a média?

A média é calculada pela simples soma dos valores de um conjunto de números, e depois dividido pela quantidade de observações.

No código:

numeros <- c(3, 4, 5, 7, 2)
soma <- sum(numeros)
n <- length(numeros)
(media <- soma / n)
#> [1] 4.2

Created on 2021-06-01 by the reprex package (v2.0.0)

Como calcular a mediana?

A mediana é calculada ordenando-se os números do conjunto e depois escolhendo o valor que está no meio.

No código:

numeros <- c(3, 4, 5, 7, 2)
numeros_ordenados <- sort(numeros)
# temos 5 números, então o índice do meio é 3!
(mediana <- numeros_ordenados[3])
#> [1] 4

Created on 2021-06-01 by the reprex package (v2.0.0)

Quando o número de itens é par, temos dois valores “no meio”. A mediana nesse caso é um valor intermediário entre esses valores, e podemos ter várias estratégias para escolhê-lo. Usualmente, utiliza-se a média entre esses dois valores.

numeros_par <- c(3, 4, 5, 7, 2, 6)
(numeros_ordenados <- sort(numeros_par))
#> [1] 2 3 4 5 6 7
# media entre os dois do meio
median(numeros_par, type)
#> Error in median.default(numeros_par, type): object 'type' not found
# outros possíveis métodos
quantile(numeros_par, probs = .5, type = 1)
#> 50% 
#>   4
quantile(numeros_par, probs = .5, type = 2)
#> 50% 
#> 4.5

Created on 2021-06-01 by the reprex package (v2.0.0)

Exemplo

Digamos que você esteja em seu escritório com 10 pessoas, e vocês começam a comparar seus salários.

Nesse caso, os valores da média e da mediana são muito próximos:

salarios <- c(1500, 2000, 5000, 3000, 7500, 
              1000, 3500, 4000, 6000, 1500)

(media <- mean(salarios))
#> [1] 3500
(mediana <- median(salarios))
#> [1] 3250

Created on 2021-06-01 by the reprex package (v2.0.0)

Aí entra a Oprah Winfrey no seu escritório. O salário dela é de 130 milhões de reais por mês (dependendo do valor do dólar)!

Agora, a média será:

salarios_oprah <- c(1500, 2000, 5000, 3000, 7500, 
                    1000, 3500, 4000, 6000, 1500,
                    125000000)

(media <- mean(salarios_oprah))
#> [1] 11366818

Created on 2021-06-01 by the reprex package (v2.0.0)

Ou seja, a média de salários do escritório é de 11 milhões. Quem dera! Mas não parece muito real. Na verdade, todas as pessoas do escritório têm salários muito diferentes da média, inclusive a Oprah.

Agora vamos ver a mediana:

salarios_oprah <- c(1500, 2000, 5000, 3000, 7500, 
                    1000, 3500, 4000, 6000, 1500,
                    125000000)

(mediana <- median(salarios_oprah))
#> [1] 3500

Created on 2021-06-01 by the reprex package (v2.0.0)

Parece bem melhor, não é mesmo? A presença da Oprah, ao invés de distorcer completamente nossa estatística, apenas andou uma casinha. Essa propriedade da mediana é a robustez: ela é mais resistente a variáveis assimétricas.

Na jurimetria, usualmente recomendamos utilizar a mediana quando analisamos tempos e valores. Essas variáveis podem ser altamente assimétricas, tornando a mediana uma medida mais útil para resumir os dados.

E, claro: média e mediana são apenas medidas de posição. Não se esqueça das medidas de variabilidade! Mas isso fica para outro tópico.

2 Curtidas