O que é a Distância de Correlação?
Diferente de métricas como a Distância Euclidiana, que mede o espaço geométrico entre pontos, a Distância de Correlação mede a dissimilaridade entre os padrões ou tendências de dois vetores de dados. Ela não se importa com a magnitude absoluta dos valores, mas sim com a forma como eles variam juntos.
Pense em dois ativos financeiros: o Ativo A vale R$100 e o Ativo B vale R$10. Se ambos sobem 10% em um dia e caem 5% no outro, sua distância Euclidiana é grande, mas sua Distância de Correlação será muito baixa, pois eles se movem em perfeita sincronia.
Ela é derivada do famoso coeficiente de correlação de Pearson (ρ), que varia de -1 (perfeitamente anti-correlacionados) a +1 (perfeitamente correlacionados). A distância simplesmente transforma essa medida de similaridade em uma de dissimilaridade, geralmente pela fórmula d = 1 - ρ
.
💡 Fórmula e Seus Componentes
A jornada para a Distância de Correlação começa com o cálculo do Coeficiente de Correlação de Pearson (ρ).
Coeficiente de Correlação de Pearson (ρ)
Para dois vetores X e Y de mesmo tamanho n:
Isso significa que a correlação é a covariância dos dois vetores dividida pelo produto de seus desvios padrão.
Distância de Correlação (d)
Uma vez que ρ é conhecido, a distância é trivial:
📝 Desvendando os Termos
- cov(X,Y): A covariância mede a direção da relação linear. Um valor positivo significa que X e Y tendem a aumentar juntos. Um valor negativo significa que quando um aumenta, o outro tende a diminuir.
- σₓ e σᵧ: O desvio padrão de X e Y, respectivamente. Mede a dispersão dos dados em torno de sua média. Normalizar pela multiplicação dos desvios padrão garante que o coeficiente de correlação fique sempre entre -1 e 1.
🔑 Propriedades Fundamentais
Entender as propriedades da Distância de Correlação (d = 1 - ρ
) revela seu poder e limitações.
-
1. Intervalo de [0, 2]
A distância está contida no intervalo de 0 a 2. Cada valor tem um significado claro:
- d = 0: Similaridade máxima (ρ = 1). Os vetores se movem em perfeita sincronia.
- d = 1: Ausência de correlação linear (ρ = 0). Não há padrão linear entre as variações.
- d = 2: Dissimilaridade máxima (ρ = -1). Os vetores se movem em direções perfeitamente opostas.
-
2. Invariância à Escala e Translação
Esta é sua propriedade mais poderosa. Se você multiplicar todos os valores de um vetor por uma constante ou somar um valor a todos eles, a distância de correlação com outro vetor não muda. É por isso que ela foca no "formato" dos dados, não na sua magnitude ou localização.
-
3. Não é uma Métrica Estrita
A fórmula
1 - ρ
não satisfaz a desigualdade triangular em todos os casos, o que tecnicamente a impede de ser uma "métrica" verdadeira. No entanto, na prática, ela funciona perfeitamente como uma medida robusta de dissimilaridade para muitas aplicações, como o clustering.
🎯 Aplicações Práticas
A Distância de Correlação é crucial onde a relação de tendência supera a magnitude dos dados.
🧬 Bioinformática e Genômica
Usada para agrupar genes com padrões de expressão semelhantes em diferentes condições (análise de co-expressão). Genes com baixa distância de correlação podem estar funcionalmente relacionados, mesmo com níveis de expressão diferentes.
💹 Análise Financeira
Essencial para a diversificação de portfólios. Investidores buscam ativos com alta distância de correlação (baixa ou negativa correlação) para mitigar riscos, pois eles não tendem a cair ao mesmo tempo.
📊 Machine Learning
Em algoritmos de clustering para agrupar séries temporais. Por exemplo, agrupar clientes com padrões de consumo semelhantes ao longo do ano, independentemente do volume total de compras.
🛒 Sistemas de Recomendação
Para encontrar usuários com gostos semelhantes (filtragem colaborativa). Se dois usuários tendem a avaliar os mesmos filmes de forma parecida (altas notas para os mesmos gêneros, baixas para outros), sua distância de correlação é baixa, mesmo que um use uma escala de 1-5 e outro de 1-10.
🔬 Calculadora Interativa
Insira dois vetores de dados (separados por vírgula) para calcular as estatísticas e visualizar a relação. Observe como a linha de tendência e a Distância de Correlação mudam com diferentes padrões de dados.
Vetor X
Ex: 1, 2, 3, 4, 5
Vetor Y
Ex: 2, 4, 5, 4, 6
Média X (x̄):
N/AMédia Y (ȳ):
N/ADesvio Padrão X (σₓ):
N/ADesvio Padrão Y (σᵧ):
N/ACovariância(X,Y):
N/ACoef. Correlação (ρ):
N/ADistância de Correlação:
N/A
Gráfico de dispersão dos pontos (Xᵢ, Yᵢ) com linha de melhor ajuste.