Cópula (estatística)

 Nota: Se procura outro significado de Cópula, veja Cópula.
Ícone de esboço Este artigo sobre matemática é um esboço. Você pode ajudar a Wikipédia expandindo-o.

Em estatística, uma função cópula é usada como método geral para formular distribuições multivariadas de maneira que diversos tipos gerais de dependência possam ser representados [1]

Ideia básica

editar

Considere duas variáveis aleatórias   e   com distribuição cumulativa conjunta dada por   e distribuições cumulativas marginais dadas por   e  . Segundo o teorema de Sklar,[1] para qualquer par de variáveis aleatórias existe uma função   tal que:

 

Sempre é possível fazer a transformação de variáveis

  e  ,

de forma que U e V possuem ambas distribuições marginais uniformes no intervalo  . A distribuição cumulativa conjunta de U e V é dada pela própria função cópula:

 

A função cópula C(u,v) contém todas as informações da distribuição de probabilidade que independem das distribuições marginais. Dessa forma, pode-se dizer que as cópulas codificam a dependência entre as variáveis. Com essa construção temos que a distribuição conjunta de variáveis aleatórias podem ser decompostas em distribuições marginais de cada uma das variáveis, que contém todas as informações sobre cada uma das variáveis correspondentes, e cópula, que contém toda a informação de como as variáveis dependem uma das outras.

Definição formal

editar

Uma cópula é uma distribuição cumulativa conjunta multivariada no cubo unitário n-dimensional   tal que todas as distribuições marginais são uniformes no intervalo  :

  com  ,
  para todo  .

De maneira alternativa, uma função   é dita uma cópula em n dimensões se:

  sempre que ao menos uma das componentes de   for nula,
  sempre que todas as componentes de   são iguais a 1, exceto a i-ésima, que é igual a  ,
  é n-crescente, ou seja, todo   possui C-volume maior ou igual a 0, com C-volume definido por  .

Caso n=2

editar

No caso bivariado, a função   é denominada uma cópula se:

 ,
  e  ,
Se   e  , então  

Limites de Fréchet-Hoeffding

editar

As funções   e   são cópulas bivariadas e possuem a propriedade de limitar por cima e por baixo todas as outras cópulas possíveis. Assim, se   é uma cópula em 2 dimensões, então:

  para quaisquer u e v no intervalo unitário.

No caso multivariado também existem cópulas limítrofes dadas por:

  e  ,

de tal forma que  .

Densidade de Cópula

editar

A função densidade de probabilidade é dada por:

 

onde   e   são as funções densidade de probabilidade marginais de X e Y respectivamente e a função:

 

é dita a densidade de cópula. A densidade de cópula é também a função densidade de probabilidade conjunta para as variáveis U e V definidas acima.

Cópulas importantes e famílias de cópulas

editar

Nas aplicações em finanças e inferência estatística pode-se famílias de distribuições multivariadas construídas com cópulas parametrizadas por um ou mais parâmetros a serem encontrados através dos métodos estabelecidos de inferência (método dos momentos, máxima verossimilhança, estimação bayesiana de parâmetros, etc.). Abaixo algumas famílias conhecidas de cópulas são apresentadas com suas propriedades mais importantes.

Cópula trivial

editar

Além das cópulas de Fréchet-Hoeffding, que indicam dependência máxima positiva e negativa, uma terceira cópula importante é aquela que indica dependência estatística nula, a cópula trivial ou cópula produto:

 

Essa cópula é a que surge quando as variáveis são estatisticamente independentes, ou seja, quando a distribuição conjunta pode ser escrita como um produto das distribuições marginais. No caso multivariado a cópula produto é dada por:

 

Cópula Normal ou Gaussiana

editar

A distribuição normal multivariada pode ser usada para construir uma família de cópulas através da mudança de variáveis indicada na introdução. Dessa forma se obtém uma família de cópulas parametrizadas pelos   coeficientes independentes da matriz de correlação. A cópula gaussiana ou normal será portanto dada por:

 

em que:

  •   é a matriz de correlação que parametriza a cópula e
  •   é a distribuição cumulativa de uma variável com distribuição normal padronizada e   é a função erro.

No caso bivariado ficamos com:

 

onde   é a correlação que parametriza a cópula.

A cópula normal se reduz à cópula produto quando a matriz de correlação é diagonal, i. e., quando todas as correlações são nulas.

Cópula t

editar

Assim como a cópula normal pode ser definida a partir da distribuição normal multivariada, a distribuição t de Student multivariada dá origem à cópula t.[2] A cópula t é dada por:

 ,

em que:

  •   é a matriz de correlações, como no caso da cópula normal,
  •   é o parâmetro conhecido como número de graus de liberdade da distribuição t e
  •   é a distribuição cumulativa de uma distribuição Student t univariada padronizada.

Quando o número de graus de liberdade   é muito grande, a cópula t fica cada vez mais próxima da cópula gaussiana, ficando idêntica à mesma no limite  .

Cópulas arquimedianas

editar

Algumas cópulas podem ser escritas na forma:

 

e são chamadas cópulas arquimedianas com função geradora  . Qualquer função pode ser a função geradora de uma cópula arquimediana se satisfizer os critérios:

 
 
 
 

Cópulas dessa classe são usadas extensamente em econometria, finanças e estatística por possuírem expressões analíticas extremamente simples para a maioria de seus momentos e parâmetros de dependência.

A cópula produto é uma cópula arquimediana com função geradora  .

Mais importantes funcções geradoras para cópulas arquimedianas. [3]
name função geradora   inversa da geradora   parameter
Ali-Mikhail-Haq      
Clayton[4]      
Frank      
Gumbel      
Independence    
Joe      

Cópula de Clayton

editar

A cópula de Clayton é obtida usando a função geradora:

  ,

e é dada pela expressão:

 .

Cópula de Frank

editar

A cópula de Frank é obtida usando a função geradora:

  ,

e é dada pela expressão:

 .

Estimação de cópulas

editar

A função cópula pode ser estimada a partir dos métodos tradicionais de inferência paramétrica ou não-paramétrica.

Distribuição cumulativa empírica dos postos

editar

O método mais simples e imediato é através da interpolação de um histograma dos postos. A partir de uma série de observações   com   das variáveis X e Y, definimos o posto   da seguinte forma:

  1. ordene os valores   de forma crescente,
  2.   é definido como a posição do valor   nessa sequência ordenada dividida pelo número de observações N.

analogamente   é a posição de   na lista ordenada de todos os valores de Y normalizada pelo total N. As variáveis de posto   são estimadores para as variáveis U e V da introdução. Dessa forma, uma estimativa para a cópula pode ser obtida estimando a distribuição cumulativa dos postos:

 

Valores de C(u,v) não compreendidos pela expressão acima podem ser interpolados.

Método dos momentos

editar

Uma outra forma de estimar a cópula associada a um certo conjunto de dados é usar uma família de cópulas   com um série de parâmetros  . Se são conhecidas expressões analíticas dos valores esperados com relação a esta cópula de n funções:

 ,

pode-se obter n equações para os parâmetros   se houver estimativas para esses valores esperados a partir do conjunto de dados conhecido.

Método da máxima verossimilhança

editar

O método da máxima verossimilhança pode ser aplicado a qualquer família distribuição de probabilidades com um certo número de parâmetros, e isso se aplica também a cópulas. O conjunto de parâmetros que maximiza a probabilidade dos dados observados:

 ,

onde   são os postos definidos acima, oferece uma estimativa para a cópula dada por:

 .

Inferência bayesiana

editar

Priores para estimação bayesiana, paramétrica e não paramétrica, de cópulas, particularmente se for suposta uma estrutura arquimediana, são assuntos tratados em referências recentes enquanto se escreve esse artigo.[5][6][7][8]

Medidas de dependência

editar

O conceito de medidas de dependência está intimamente ligado ao conceito de cópula. Alguns dos requisitos de Renyi[9][10] para que um funcional possa ser considerado uma boa medida de dependência pode ser resumido no requisito de que dependa exclusivamente da densidade de cópula.

Aplicações

editar

Ver também

editar

Referências

editar
  1. a b Roger B. Nelsen (1999). An Introduction to Copulas (em inglês). [S.l.: s.n.] ISBN 0-387-98623-5 
  2. Demarta S; McNeil A J (2005). «The t copula and related copulas» (PDF). International Statistical Review (em inglês). 73 (1). pp. 111–129 
  3. Jan Marius Hofert (2010): Sampling Nested Archimedean Copulas with Applications to CDO Pricing. Dissertation at the University of Ulm
  4. David G. Clayton (1978), "A model for association in bivariate life tables and its application in epidemiological studies of familial tendency in chronic disease incidence", Biometrika 65, 141–151. JSTOR (subscription)
  5. Philippe Lambert (2007). «Archimedean copula estimation using Bayesian splines smoothing techniques». Source Computational Statistics & Data Analysis archive. 51 (12). pp. 6307–6320 
  6. David Huarda; Guillaume Évina ; Anne-Catherine Favre (2006). «Bayesian copula selection». Computational Statistics & Data Analysis. 51 (2). pp. 809–822 
  7. Roberto de Matteis (2001). Fitting copulas to data. Zurique: Diploma Thesis apresentada à universidade de Zurique 
  8. Dimitris Nicoloutsopoulos (2005). Parametric and Bayesian non-parametric estimation of copulas. [S.l.]: Ph.D. Thesis apresentada à universidade de Londres 
  9. Renyi, A. (1959). «On measures of dependence.». Acta. Math. Acad. Sci. Hungar. (em inglês). 10. pp. 441–451 
  10. Schweizer, B.; Wolff, E. F. (1981). «On nonparametric measures of dependence for random variables.». The Annals of Statistics (em inglês). 9 (4). pp. 879–885 

Gerais

editar

Ligações externas

editar