Correlações espúrias

Quanto mais filmes Nicholas Cage está presente mais pessoas se afogam em piscinas? Quanto maior o consumo de queijo per capta nos Estados Unidos mais pessoas morrem emboladas em seus próprios lençóis? Quanto mais velha a Miss América em um determinado ano, mais gente é assassinada nos EUA? O café causa câncer de pulmão? Neste momento você olha para o endereço do site para saber se clicou sem querer em algum site de teoria da conspiração. Mas não amiguinh@, hoje vamos discutir um fenômeno tanto do discurso quanto das estatísticas: As Correlações Espúrias.

Correlações não são necessariamente causalidades. Duas variáveis podem ter uma relação entre si mas, muitas vezes, não é possível – nem faz sentido – estabelecer uma relação de causa e efeito entre elas. Imaginemos um dataset com algumas variáveis, entre elas consumo de café e incidência de câncer de pulmão. É provável que, quando você traçar seu gráfico para observar sua população, você perceba que uma pessoa que toma mais café tem uma chance aumentada de incidência de câncer de pulmão. Sabemos atualmente que o café não causa o desfecho observado, logo você percebe no seu dataset que o tabagismo está associado ao CA de pulmão. Sabemos também que fumantes costumam consumir bastante café, porém neste caso, a variável consumo de café é chamada de variável de confusão, um processo conhecido como mistura de causas ou confusão de efeitos. Existe a correlação entre consumo de café e o câncer de pulmão, porém estas variáveis não apresentam entre si uma relação de causa e efeito.

A Correlação espúria vai além e consegue correlacionar variáveis que estariam muito (mas muito mesmo) distantes. No exemplo que foi citado no início deste texto, pertencente a este site, foi estabelecida uma correlação entre o número de participações do ator Nicholas Cage em filmes com o afogamento de pessoas em piscinas. Esta correlação tem o valor de 0.66 aproximadamente, ou seja, um valor notável. Entretanto, esta correlação espúria é fácil de perceber pois foge completamento ao razoável! Em grandes conjuntos de dados sempre iremos achar conjuntos de variáveis que se apresentarão correlacionadas com algum grau de significância. Mas a correlação faz sentido? O fato da Miss América ser mais velha e ocorrerem mais assassinatos nos EUA tem um valor de 0.87! Isso diz alguma coisa? Claro que não.

Vamos passear por um terreno adjacente agora mas que pode nos dar pistas sobre o entendimento das coincidências. Dois presidentes estadunidenses Abraham Lincoln e John Kennedy, tem uma conhecida lista de similaridades, coisa esta que já se tornou uma lenda urbana. A lista é longa, vou citar apenas alguns itens:

  • Abraham Lincoln foi eleito para o Congresso em 1846.
  • John F. Kennedy foi eleito para o Congresso em 1946.
  • Abraham Lincoln foi eleito presidente em 1860.
  • John F. Kennedy foi eleito presidente em 1960.
  • Os nomes Lincoln e Kennedy têm sete letras.
  • Ambos os presidentes foram baleados numa sexta-feira.
  • Os nomes dos sucessores de Lincoln e Kennedy têm seis letras.
  • Ambos os assassinos eram conhecidos pelos seus três nomes. (John Wilkes Booth e Lee Harvey Oswald)
  • O assassinato de Kennedy foi filmado por um homem chamado Abraham
  • O teatro de Ford era propriedade de um homem chamado John.
  • Lincoln foi morto no Teatro Ford.
  • Kennedy foi morto num carro da marca Ford modelo Lincoln.

A lista completa pode ser vista aqui. Alguns itens da lista são notáveis, como as quatro primeiras datas. Mas alguns são – perdoem meu francês – visivelmente falaciosos. Os nomes terem seis letras não se aplica somente aos dois, o atual presidente Donald, também tem seis letras no nome. Os nomes Abraham e John são muito comuns, logo é de se esperar que fossem encontradas pessoas com esses nomes associadas aos locais dos crimes. Tudo que não coincidia entre os dois foi ignorado, como o nome da mãe do primeiro ser Nancy e do segundo ser Rose. Não vou me estender demais nesta discussão para não fugir ao objetivo, que é mostrar como se pode fazer verdadeiros malabarismos com os dados, listando o que se quer e omitindo o que não convém.

Vamos para um exemplo mais moderno e aplicável. Imagine uma empresa com 6 funcionários: 3 deles ganham R$1.200,00, 2 deles ganham R$ 1.600,00 e o último – o dono da empresa – ganha R$ 27.000,00 por mês. Se o dado extraído desta empresa fosse a média salarial, teríamos a sensação de ser uma ótima empresa para se trabalhar, pois a média salarial em 2020 seria de aproximadamente R$ 5.600,00. Neste caso, seria necessário verificar a existência de um outsider, ou seja, um dado que destoa demais do conjunto, para realizar os ajustes. A plotagem dos valores em um gráfico já mostraria isto, como exemplo de técnica mais básica para este tipo de correção.

Apesar do que vimos até agora, e antes que você saia por aí dissociando todo tipo de informação, é preciso lembrar que, às vezes, o que parece uma correlação espúria não é. Há um tempo atrás, uma grande rede de varejo estadunidense correlacionou os dados de vendas de fraldas e de cerveja. O que a princípio poderia parecer esdrúxulo, foi explicado e gerou um resultado mais que satisfatório para a companhia. Parece que os consumidores que compravam fraldas, em média homens, aproveitavam que tinham ido na loja para comprar fraldas e muitos deles compravam também cerveja. A loja então posicionou estes produtos próximos um ao outro. Resultado: as vendas de cerveja dispararam. Inclusive este princípio acabou ganhando o nome de Princípio de Fraldas e Cervejas.

Ao final, é necessário conhecer a existência destes tipos de situações. O software de análise consegue estabelecer as correlações, mas é o analista de dados que vai atribuir – ou não – sentido e validade para aquelas associações. Conhecer o negócio, a natureza dos dados que se está analisando adquire fundamental importância para evitar cair neste tipo de armadilha ou, ao contrário, identificar grandes oportunidades. Termino este texto com uma frase de minha autoria, que resume de maneira cômica tudo que vimos até agora:

“Se você for suficientemente paranoico, você consegue estabelecer uma correlação entre quase quaisquer coisas!”

Publicado por

Murilo Freire

Formado em Análise de Sistemas, MBA em Gestão de Projetos, Mestrado em Biotecnologia e Doutorado - em curso - em Biotecnologia. Programei do Delphi ao PHP passando pelo Unity 3D, sempre fascinado por programação mas também por cultura pop, jogos (eletrônicos e de tabuleiro), aleatoriedades, Cabala, Tarô e bruxaria.

Deixe um comentário

Faça o login usando um destes métodos para comentar:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair /  Alterar )

Foto do Google

Você está comentando utilizando sua conta Google. Sair /  Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair /  Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair /  Alterar )

Conectando a %s

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.