Economia Ideias fundamentais Matemática 11 de setembro de 2024, 12:37 11/09/2024

Causalidade: a matemática usada para entender a ciência das causas e dos efeitos

Autores

Jovens revisores

Ilustração de uma menina em uma praia segurando um sorvete de casquinha. Com uma expressão de concentração, ela reflete sobre a fórmula matemática do coeficiente de correlação de Pearson, que aparece em uma nuvem de pensamento ao seu lado. Setas demonstram a relação entre as variáveis x e y, associadas ao sorvete que ela segura.

Resumo

Algumas pessoas dizem que a matemática deve ser considerada a matéria mais importante da ciência, porque é a linguagem da natureza. Neste artigo, fornecemos argumentos para isso explicando a ideia de causalidade. Causalidade é um conceito fundamental porque influencia essencialmente todas as áreas da ciência e da sociedade. Em termos simples, é o princípio que examina a ligação entre uma “causa” e um “efeito”. Isso nos permite estudar questões práticas importantes. Por exemplo, na medicina, na biologia ou no direito, alguém pode perguntar: “Que medicamento deve ser usado para tratar esta doença?”, “Que proteína ativa este gene?” ou “Que ato criminoso causou este dano?”. Para responder a essas e a outras perguntas similares, é necessário usar métodos de probabilidade, de estatística e de teoria de gráficos para quantificar o significado da causalidade. Aqui, fornecemos uma visão geral desse tópico fascinante.

O que é a causalidade?

O estudo da causalidade tem uma longa história, que remonta aos filósofos Aristóteles (384-322 a. C) e David Hume (1711-1776). Embora o trabalho deles seja importante na abordagem de questões filosóficas sobre causação (como “o que caracteriza uma causa?”), a quantificação de causalidade que permita uma forma de medição exige modelos matemáticos. Esses modelos causais foram elaborados por Sewall Wright (1889-1988), Donald Rubin (1943-) e Judea Pearl (1936-). 

A causalidade é a relação entre uma “causa” e um “efeito”, sendo o efeito um resultado da causa. Em termos simples, é o princípio (e o estudo) que nos ajuda a entender como as coisas estão relacionadas e como mudam. É a ligação entre um evento e seu resultado. 

Por exemplo, imagine que você está se divertindo com um carrinho de brinquedo, fazendo-o deslizar pelo chão. A causa do movimento do carrinho de brinquedo é você, que o faz deslizar; o efeito é ele deslizando pelo chão. Sem a causa (você fazendo com que o carrinho deslize), o efeito (o carrinho deslizando) não aconteceria. Outro exemplo é o plantio de uma semente no solo. Você planta a semente (causa); a semente se transforma em arbusto (efeito). A causa e o efeito estão intimamente relacionados entre si – se a semente não fosse plantada (causa), o arbusto não cresceria (efeito). 

A causalidade é muito importante na pesquisa científica, quando cientistas tentam entender como as coisas funcionam estudando causas e efeitos. Por exemplo, um cientista pode fazer uma experiência para descobrir como determinado medicamento afeta a saúde de uma pessoa. O medicamento é a causa e o efeito é a mudança na saúde da pessoa. 

A causalidade requer três partes: uma causa, um efeito e uma relação entre os dois (Figura 1A). A causalidade pode ser visualizada usando-se um gráfico (às vezes, também chamado de rede) [1]. Na linguagem matemática da teoriadosgráficos, um gráfico consiste de dois blocos de construção: nós e arestas. A causa e o efeito correspondem aos nós (círculos na Figura 1A) e as arestas são as ligações entre os nós. Se você deseja aprender mais sobre gráficos ou redes em geral, por favor veja nosso artigo anterior publicado aqui no Unesp para Jovens.  

Figura 1. Visualização da causalidade mediante o uso da matemática. (A) A relação entre uma causa (X) e um efeito (Y). (B) Dados para as vendas de sorvete (xi) e motoqueiros vistos nas ruas (yi) para cada estação (correspondendo a i). (C) Representação gráfica de valores em (B) (onde a cor corresponde às estações) indica que as duas observações estão correlacionadas. Mas isso não significa que uma provoque a outra! (D) Relação alternativa, mostrando que a estação do ano influencia tanto a venda de sorvetes quanto o número de motoqueiros. (E) Valor de correlação entre venda de sorvetes e motoqueiros. 

Agora que você sabe que a causalidade é útil para descrever a relação entre “causa” e “efeito”, a próxima pergunta é: como medir a causalidade? 

Infelizmente, não existe nenhum dispositivo de medição física que possa ser usado diretamente para medir uma relação causal entre duas coisas, da mesma forma que um termômetro mede a temperatura ou um barômetro mede a pressão atmosférica, por exemplo. Em vez disso, uma relação causal só pode ser “medida” usando-se uma combinação de ferramentas matemáticas dos campos da probabilidade, da estatística e da teoria dos gráficos. Mostraremos a você um problema que poderá surgir se tentarmos usar apenas a abordagem estatística. 

Qual é o problema das medidas estatísticas?

Para demonstrar por que é difícil medir a causalidade, vamos começar com um exemplo simples. Suponha que seja verão e esteja muito quente. Na praia, você vê muitas pessoas usando roupas de banho e tomando sorvete. Poderia dizer que usar roupas de banho leva as pessoas a tomarem sorvete? Provavelmente, fica óbvio para você que, embora muitas pessoas estejam usando roupas de banho e tomando sorvete, um fator não causa o outro. Há uma medida estatística que nos permite quantificar essa associação com grande precisão, chamada correlação. Matematicamente, é denotada por rxy, onde x e y indicam que ela é calculada por duas variáveis. 

Para entender como estimar a correlação a partir de dados, vamos considerar um segundo exemplo. Suponha que, para cada estação do ano, tenhamos informações sobre a venda de sorvetes.

Atribuímos à “venda de sorvetes” a variável xi, onde i denota a estação, ou seja., i E {estações: outono, inverno, primavera, verão}. Aqui, “i E” significa que i pode assumir todos os valores no conjunto dado por {outono, inverno, primavera e verão}. Os valores de Xi são mostrados na Figura 1B. Suponha que também tenhamos informações sobre o número de motoqueiros vistos nas ruas por estação: chamaremos yi de “motoqueiros”. Os valores de xi e yi estão visualizados na Figura 1C. As cores dos pontos correspondem às estações, como mostrado na Figura 1B. A linha preta no gráfico é chamada de linha de regressão e vemos que os pontos de dados se inserem em uma linha quase reta.

Usando esses valores e a equação de correlação, mostrados na Figura 1, descobrimos que o valor da correlação entre a venda de sorvetes e os motoqueiros é rxy = 0,98. Um valor de correlação de rxy = 0,98 é muito alto porque o valor máximo que uma correlação pode assumir é 1. Assim, a partir dessa análise, parece que a venda de sorvetes e o número de motoqueiros vistos nas ruas estão fortemente associados. Baseado nessa observação, alguém poderia formular a seguinte pergunta: Vemos mais motos nas ruas quando tomamos mais sorvete? 

Você provavelmente dirá que a resposta a essa pergunta é “não”. 

Portanto, embora a técnica estatística nos tenha dado uma correlação elevada, isso não garante que a “venda de sorvetes” seja a causa de “muitas motos”. Em outras palavras, uma alta correlação não garante que haja uma relação causal. Se você pensar bem, encontrará uma explicação alternativa para essa situação. Em vez de assumir que a “venda de sorvetes” é a causa dos “motoqueiros” ou vice-versa, será mais razoável pensar que exista aí uma terceira variável – isto é, a estação do ano. A Figura 1D mostra “estações” como a causa de “venda de sorvetes” e “motoqueiros” como os dois efeitos. 

No geral, os dois exemplos que mostramos lhe dizem algo muito importante: correlação não é causalidade. 

Por que a causalidade é importante para a ciência?

Compreender a causalidade nos permite fazer previsões sobre o que acontecerá no futuro com base na experiência passada e nos ajuda a identificar os fatores que contribuem para certos resultados. 

Na medicina, a causalidade é usada para entender como vários fatores influenciam a saúde do indivíduo. Isso ajuda os médicos e pesquisadores a desenvolverem tratamentos efetivos e medidas preventivas. 

Um exemplo para o uso da causalidade em biologia é a identificação das redes reguladoras de genes (RRGs) [2, 3]. Uma RRG é uma rede similar à mostrada nas Figuras 1A, D, ou seja, ela consiste de nós e arestas. Na RRG, os nós correspondem aos genes e as arestas às interações entre os genes. Os seres humanos têm cerca de 20.000 genes, o que significa que as RRGs são consideravelmente maiores que as redes mostradas na Figura 1. Essas redes fornecem importantes informações sobre o funcionamento das células porque as funções celulares são controladas pela atividade genética. Ou seja, uma RRG ajuda os pesquisadores a descobrirem quais genes ativam (ou desativam) outros genes. Assim, eles entendem melhor os genes e o que causa certas doenças. 

Em psicologia, a causalidade é usada para entender como vários fatores contribuem para a saúde mental e o comportamento do indivíduo. Por exemplo, os pesquisadores estudam a relação entre as emoções de uma pessoa e seu comportamento ou entre o ambiente de uma pessoa e seu comportamento. Similarmente, na economia, a causalidade é usada para descobrir como vários fatores impactam a situação econômica atual e para fazer previsões sobre como a economia se comportará no futuro. 

Em resumo, a causalidade é estudada porque nos ajuda a entender como as coisas acontecem, como as coisas mudam e como vários fatores contribuem para certos resultados. Esse conhecimento é importante para fazer previsões, delinear experiências e desenvolver intervenções ou tratamentos eficazes. 

Resultados potenciais e modelo causal de Rubin 

Agora você sabe que há um problema em usar a correlação como medida de causalidade. Uma solução para esse problema é fornecida pelo modelo causal de Rubin (MCR) [4]. Para entender a ideia básica subjacente ao MCR, vamos considerar um experimento hipotético. 

Suponha que queiramos descobrir se um novo medicamento pode tratar uma doença. Pense na aspirina para tratar dor de cabeça ou no xarope para tratar tosse, por exemplo. O MCR define um efeito causal, representado por δ, como a diferença entre receber e não receber o tratamento:

δ = Y1-Y0. (1)

Aqui, y1 corresponde ao resultado obtido quando se fez o tratamento e y0 ao resultado quando o tratamento não foi feito. Você pode pensar em y1 e y0 como medidas para a severidade da dor de cabeça ou o número dos acessos de tosse em uma hora. A descrição anterior corresponde a uma experiência hipotética porque no mundo real um indivíduo não pode receber o tratamento e não recebê-lo ao mesmo tempo. Por essa razão, as variáveis y1 e y0 são chamadas de resultados potenciais porque ambas as variáveis podem ser potencialmente observadas, mas só uma é realmente observada. 

A boa notícia é que existem alguns truques (estatísticos) que podem ser usados para estimar o efeito causal. A ideia subjacente a esse método é bastante simples e baseia-se na atribuição aleatória de pacientes a dois grupos – um grupo que recebe tratamento e outro que não o recebe. Supondo-se que os pacientes de ambos os grupos sejam semelhantes, pode-se estimar um efeito causal para os grupos. Sem dúvida, no mundo real, os pacientes não são todos iguais entre si. Por essa razão, os pesquisadores tentam encontrar pacientes que se pareçam, levando em conta a idade e a saúde geral, por exemplo. 

Você deve ter notado que há uma diferença entre o efeito causal definido na Equação 1 e a descrição dada aqui. A diferença é que o efeito causal na Equação 1 é para um paciente individual, enquanto o efeito causal de uma randomização é para um grupo de pacientes. Em estatística, isso significa que estimamos um efeito causal para uma população de pacientes. Em resumo, a randomização de pacientes nos permite estimar um efeito causal entre dois grupos de pacientes, supondo-se que todos eles sejam similares entre si. Essa abordagem é o conceito subjacente aos ensaios randomizados controlados (ERCs) que se usam rotineiramente para aprovar novos medicamentos ou tratamentos. 

Conclusão

Esperamos que nossa breve visão geral tenha mostrado que a causalidade é um conceito básico graças ao qual podemos enfrentar os problemas mais interessantes e fundamentais da sociedade e da ciência. No entanto, medir a causalidade requer uma abordagem combinada, utilizando-se métodos matemáticos de probabilidade, estatística e teoria dos gráficos – um campo chamado hoje de ciência de dados. 

Por último, queremos enfatizar um aspecto deste artigo que se relaciona com a própria linguagem matemática. Como você viu acima, existem vários símbolos e relações de aparência complicada. No entanto, lembre-se de que é absolutamente normal não entender tudo de imediato. Esse não é o caso apenas dos alunos do ensino médio, mas também dos cientistas de dados e dos estatísticos que trabalham nas universidades. De fato, é muito comum estudar um problema por anos antes que uma solução seja encontrada. Portanto, não se deixe intimidar diante de obstáculos – considere-os uma motivação para trabalhar duro a fim de encontrar soluções, mesmo que isso demore anos. Na verdade, para se tornar um cientista de dados, a coragem é uma qualidade necessária. Esperamos que este artigo o ajude a realizar seu potencial. 

Glossário

Causação: Relação entre a causa e o efeito, onde um evento (a causa) provoca ou influencia outro (o efeito). 

Teoria dos gráficos: Tópico da matemática que estuda as relações estruturais entre variáveis. 

Probabilidade: Tópico da matemática que aponta a probabilidade de um resultado ocorrer.

Estatísticas: Tópico da matemática que avalia entidades a partir de dados. 

Linha de regressão: Linha reta que mostra a relação ou a tendência média entre dois conjuntos de pontos de dados. 

Referências

[1] Pearl, J. 2000. “Causality: models, reasoning, and inference.” Cambridge, Nova York, NY: Cambridge.

[2] Altay, G. e Emmert-Streib, F. 2010. “Inferring the conservative causal core of gene regulatory networks.” BMC Styl. Biol. 4:132. DOI: 10.1186/1752-0509-4-132.

[3] de Matos Simoes, R. e Emmert-Streib, F. 2012. “Bagging statistical network inference from large-scale gene expression data.” PLoS ONE 7:e33624. DOI: 10.1371/journal.pone.0033624.

[4] Rubin, D. 1974. “Estimating causal effects of treatments in randomized and nonrandomized studies.” J. Educ. Psychol. 66:688 –701. DOI: 10.1037/h0037350. 

Citação 

Emmert-Streib, F. e Dehmer, M. (2023). “Causality: using math to understanding the science of cause and effect.” Front Young Minds. 11:1155100. DOI: 10.3389/frym.2023.1155100. 

Encontrou alguma informação errada neste texto?
Entre em contato conosco pelo e-mail:
parajovens@unesp.br