Escrito em
Ensino e Estatística

O princípio da catástrofe: Um pequeno vislumbre no universo das caudas pesadas

Imagine que você está em uma cafeteria bastante famosa em um aeroporto e resolve conduzir uma pequena pesquisa. Você entrevista os clientes do estabelecimento perguntando o número de seguidores que cada um acumulou em determinada rede social. Digamos que você entrevistou um total de 20 pessoas. Ao somar o total de seguidores de cada entrevistado, você obteve um total de 200 milhões de seguidores, calculou a média e encontrou que cada entrevistado tem uma média de 10 milhões de seguidores, certo? Você está provavelmente errado!

Não, a média que você encontrou não está errada, mas ao calcular a média de seguidores, você obteve um valor surpreendentemente alto, sugerindo que todos os entrevistados têm milhões de seguidores. No entanto, isso pode não ser verdade. Isso porque o número de seguidores que um indivíduo qualquer possui em determinada rede social é uma variável aleatória cuja distribuição de probabilidade tem cauda pesada. Variáveis com essa propriedade são suscetíveis a apresentar valores muito distantes da média com probabilidade positiva.

O que é uma distribuição de cauda pesada?

Se você já estudou um curso básico de probabilidade, está familiarizado com a distribuição normal ou a distribuição exponencial, por exemplo. A distribuição normal é tão recorrente na natureza que faz jus ao nome recebido. Considere a altura das pessoas, esta é uma variável aleatória aproximadamente normal. Em termos informais, isso significa que você dificilmente vai encontrar um gigante pela rua. As pessoas têm alturas que não se distanciam muito da média de modo que valores extremos são muito raros. Quando uma distribuição tem essa propriedade, dizemos que ela tem a cauda leve. Por outro lado, considere uma variável aleatória que representa a riqueza de um indivíduo. Aqui, a realidade é bem diferente. Se você pensar na fortuna de Pateta, Mikey, Margarida ou Donald, então encontrará valores modestos, mas daí temos o Tio Patinhas e seu cofre. Portanto, a riqueza, enquanto uma variável, pode apresentar valores extremos com probabilidade positiva. Dizemos então que a distribuição dessa variável aleatória tem cauda pesada.

Na figura acima, comparamos o peso nas caudas entre a distribuição normal, exponencial e a Pareto, uma distribuição de cauda pesada. Observe como a distribuição Pareto atribui probabilidades maiores aos eventos de cauda do que as outras duas distribuições.

Na figura acima, comparamos o peso nas caudas entre a distribuição Normal, Exponencial e a do tipo Pareto, uma distribuição de cauda pesada. Observe como a distribuição Pareto atribui probabilidades maiores aos eventos de cauda do que as outras duas distribuições. Veja também como a distribuição exponencial tem cauda mais pesada que a distribuição normal.

Em geral, o peso da cauda é uma propriedade definida em termos comparativos. Nesse caso, comparamos a cauda de uma distribuição de interesse em relação àquela de uma distribuição exponencial. Desse modo, uma distribuição de probabilidade $F(x)$ tem cauda pesada se, e somente se sua cauda é mais pesada do que a cauda da exponencial. Matematicamente, dizemos que uma distribuição é de cauda pesada quando sua cauda decai mais lentamente que a da distribuição exponencial, conforme definido a seguir, para $\mu>0$ e $\bar{F}(x)=1-F(x) $, $$\limsup_{x\rightarrow\infty}\frac{\bar{F}(x)}{e^{-\mu x}}=\infty.$$

Intuitivamente, isso quer dizer que quando $x$ cresce indefinidamente, o limite diverge pois o numerador decai mais lentamente que o denominador. Outra forma de observar isso é comparando o decaimento das caudas em escala logarítmica, como na figura seguinte.

Observe como no caso da distribuição Pareto, a cauda decai muito mais lentamente, com inclinação bem menor em relação à distribuição exponencial.

No frigir dos ovos, uma distribuição de cauda pesada é aquela que atribui probabilidades positivas para valores extremos da variável aleatória, ou seja, valores muito grandes. Trocando em miúdos, sob uma distribuição desse tipo, podemos observar valores muito discrepantes, como no caso da riqueza de indivíduos”.

O princípio da catástrofe

Agora que vimos o que é uma distribuição de cauda pesada, podemos retomar ao nosso experimento inicial. Pois bem, nesse momento, você já deve ter percebido que o número de seguidores que um indivíduo qualquer possui em rede social é uma variável aleatória cuja distribuição tem cauda pesada. Coisas interessantes surgem quando lidamos com esse tipo de distribuição e o princípio da catástrofe é uma delas.

Esse princípio afirma que, ao somarmos variáveis aleatórias com caudas pesadas, o valor total é frequentemente dominado por uma única variável extrema — a maior delas. Outra forma de dizer isso é que a cauda da distribuição de probabilidade da soma de variáveis aleatórias cuja distribuição tem cauda pesada é assintoticamente equaivalente a distribuição de probabilidade do máximo dessas variáveis, ou seja, $$\Pr[\max\{X_1,\dots,X_n\}>t]\thicksim\Pr[X_1+\dots+X_n>t], \text{ quando } t\rightarrow\infty.$$
No caso dos clientes da cafeteria, se você soma o número total de seguidores dos entrevistados, então a distribuição de probabilidade dessa variável é equivalente a distribuição da maior variável entre elas, em termos assintóticos, ou seja, para valores grandes em termos de número de seguidores, afinal, estamos falando de eventos na cauda da distribuição.

Isso é uma propriedade muito interessante e útil. Significa que, ao lidarmos com essas distribuições, não precisamos nos preocupar em investigar as propriedades da soma dessas variáveis, mas tão somente as propriedades da distribuição do máximo entre as variáveis, o que é muitas vezes mais simples de se fazer.

Considerações Finais

Nesse texto, vimos a definição formal de distribuições de cauda pesada a partir da comparação com a distribuição exponencial. Também comentamos sobre o princípio da catástrofe e de como ele pode ser utilizado para simplificar a investigação das propriedades das distribuições de somas de variáveis aleatórias cuja distribuição tem cauda pesada. Para um maior aprofundamento no assunto recomendamos o didático The Fundamentals of Heavy Tails, de Nair et. al., ou o clássico Extreme Values, Regular Variation and Point Processes, de Sidney Resnick.

Leia também