Você sabe quem é Charles Darwin, é claro, mas você pode não ter ouvido falar de seu primo maluco, Francis Galton, que fez os cálculos da teoria da evolução de Darwin. Dois dos muitos procedimentos que Sir Galton elaborou para ajudá-lo a compreender os dados ainda são usados hoje e são possivelmente as duas das ferramentas mais usadas em todas as estatísticas. Elas são a regressão linear de mínimos quadrados (OLS) e a correlação OLS.

Ambas as estatísticas são medidas de uma relação linear entre duas variáveis X e Y. O coeficiente de regressão linear B de Y em relação a X é uma medida de quanto Y muda em média para uma mudança de unidade em X e a correlação linear R é uma medida de quão perto as mudanças observadas estão para a média. As métricas de regressão e correlação são demonstradas abaixo com dados gerados pela simulação de Monte Carlo usada para controlar o grau de correlação.

Nos gráficos de correlação HIGH (R = 0.94) e VERY HIGH (R = 0.98), a regressão linear nos diz que, em média, uma mudança de unidade em X faz com que Y mude em cerca de B = 5 e essa avaliação é muito consistente. A consistência, neste caso, deriva de uma baixa variância do coeficiente de regressão implicado pela alta correlação. A correlação forte também implica que as mudanças observadas em Y para uma unidade aumentam em X e se aproximam do valor médio de B = 5 em relação ao período total dos dados e para qualquer sub-intervalo selecionado da série temporal.

Nos gráficos de correlação LOW (R = 0,36) e MID (R = 0,7), os coeficientes de regressão são correspondentemente menos precisos variando de B = 1,8 a B = 7,1 para LOW-R e B = 3,5 a B = 5,6 para MID-R nas cinco estimativas aleatórias apresentadas. O ponto aqui é que, sem um grau de correlação suficiente entre as séries temporais na escala de tempo de interesse, embora os coeficientes de regressão possam ser calculados, os coeficientes calculados podem não ter interpretação.

As correlações fracas nestes casos também implicam que as mudanças observadas em Y para uma unidade aumenta em X seriam diferentes em sub-vãos da série temporal. O chamado teste “split-half”, que compara a primeira metade da série temporal com a segunda metade, pode ser usado para examinar a instabilidade do coeficiente de regressão imposto pela baixa correlação.

 

 

A correlação é uma evidência necessária, mas nem sempre suficiente, de causação. Embora a correlação possa implicar causalidades em experimentos controlados, os dados de campo não oferecem essa interpretação. Se Y é correlacionado com X em dados de campo, isso pode significar que X causa Y, ou que Y causa X, ou que uma terceira variável Z causa X e Y, ou que a correlação é uma falha dos dados sem uma interpretação de causalidades, mas que não quer dizer que uma relação obtida em um ambiente controlado em laboratório, seja verdade na natureza em questão, ou seja, X pode não causar nada em Y e vice-versa. No entanto, como a correlação é uma condição necessária para a causação, a ausência de correlação serve como evidência para refutar uma teoria da causação.

Uma questão específica para a análise de dados de séries temporais é que a correlação observada nos dados de origem deve ser separada na parte que deriva de tendências de longo prazo compartilhadas (que não tem interpretação na escala de tempo de interesse) da responsividade de Y a mudanças em X na escala de tempo de interesse. Se essa separação não for feita, a correlação usada na avaliação pode ser, e muitas vezes é espúria.

Um exemplo de tal correlação espúria é mostrado no gráfico abaixo. Foi fornecido pela coleção TylerVigen de correlações espúrias. Como é evidente, a correlação espúria deriva de uma tendência compartilhada. As flutuações em torno da tendência em uma escala de tempo apropriada não estão claramente correlacionadas.

A separação destes efeitos podem ser realizada usando análise de correlação retificada. Resumidamente, o componente de tendência é removido de ambas as séries temporais e os resíduos são testados quanto à capacidade de resposta de Y às mudanças em X na escala de tempo apropriada. O procedimento e sua motivação são descritos muito bem na Palestra de Alex Tolley.

spurious_correlation

A motivação e o procedimento para detectar e remover tais correlações espúrias em dados de séries temporais estão descritos em um breve artigo disponível para download neste link: Correlações espúrias em dados de séries temporais.

É por essas razões que o argumento de que “a teoria de que X causa Y é suportado pelos dados porque X mostra uma tendência ascendente e ao mesmo tempo vemos que Y também tem subido” é ilusório porque os dados são declaradamente consistente com a teoria da causalidade, e deve ser mostrado que Y é responsivo a X na escala de tempo apropriada e quando o efeito espúrio da tendência compartilhada é removido.

A falha em corrigir este efeito pode resultar em um falso senso de poder estatístico e falsa rejeição do nulo em testes de hipótese, como mostrado nesta análise do famoso artigo de Kerry Emmanuel sobre o que ele chamou de “crescente destrutividade” dos furacões do Atlântico Norte: Raciocínio Circular em Pesquisa sobre Mudanças Climáticas. Quando as estatísticas são feitas corretamente, não encontramos evidências para a afirmação de que “a mudança climática causada pelo homem está sobrecarregando os ciclones tropicais”. Um modelo linear geral para tendências na atividade dos ciclones tropicais.

Um caso extremo do efeito de pré-processamento em graus de liberdade ocorre quando uma série temporal de valores cumulativos é derivada dos dados de origem, como no famoso artigo de Matthews sobre a proporcionalidade do aquecimento para emissões cumulativas [Matthews, H. Damon, et al. “A proporcionalidade do aquecimento global às emissões cumulativas de carbono.” Nature 459.7248 (2009): 829]. Foi demonstrado nesses documentos que podem ser baixados, que a série temporal de valores cumulativos tem um tamanho de amostra efetivo de EFFN = 2 e, portanto, não há graus de liberdade e não há poder estatístico.

Veja também…

2015, 2016 e 2017 foram os anos mais quentes da História? Parte 2

https://thiagomaiablog.wordpress.com/2018/06/11/2015-2016-e-2017-foram-os-anos-mais-quentes-da-historia-parte-2/

Os níveis de CO2 na atmosfera são os mais altos da História?

https://thiagomaiablog.wordpress.com/2018/05/23/os-niveis-de-co2-na-atmosfera-sao-o-mais-alto-da-historia/

Qual temperatura?

https://thiagomaiablog.wordpress.com/2018/03/02/qual-temperatura/

Como as coisas funcionam: Computação Quântica.

https://thiagomaiablog.wordpress.com/2018/07/10/como-as-coisas-funcionam-computacao-quantica/

Por que aparecem bolhas dentro de um copo com água?

https://thiagomaiablog.wordpress.com/2018/07/02/por-que-aparecem-bolhas-dentro-de-um-copo-com-agua/