Distribución normal multivariante

distribución de probabilidade
Normal multivariante
Función de multivariante
MultivariateNormal.png
Función de distribución
Parámetros (vector real)
matriz de covarianza (matriz real definida positiva de dimensión )
Soporte
Función de densidade
Función de distribución Sen expresión analítica
Media
Mediana
Moda
Varianza
Asimetría
Curtose
Entropía
F. xeradora de momentos
Func. caract.

En probabilidade e estatística, unha distribución normal multivariante, tamén chamada distribución gaussiana multivariante, é unha xeneralización da distribución normal unidimensional a dimensións superiores.

Caso xeralEditar

Un vector aleatorio   segue unha distribución normal multivariante se satisfai as seguintes condicións equivalentes:

  • Toda combinación linear   está normalmente distribuída.
  • Hai un vector aleatorio  , con compoñentes que son variables aleatorias independentes distribuídas segundo a normal estándar, un vector   e unha matriz     tal que  .
  • Hai un vector   e unha matriz semidefinida positiva simétrica   tal que a función característica de X es


 

Se   é unha matriz non singular, entón a distribución pode describirse pola seguinte función de densidade:


 

onde   é o determinante de  . A ecuación redúcese á distribución normal se   é un escalar (é dicir, unha matriz 1x1).

O vector μ nestas circunstancias é a esperanza de X e a matriz   é a matriz de covarianza das compoñentes Xi.

É importante comprender que a matriz de covarianza pode ser singular (aínda que non estea así descrita pola fórmula de arriba, para a que   está definida).

Este caso aparece con frecuencia en estatística; por exemplo, na distribución do vector de residuos en problemas ordinarios de regresión linear. Ademais, os Xi son en xeral non independentes; poden verse como o resultado de aplicar a transformación linear A a unha colección de variables normais Z.

Esta distribución dun vector aleatorio X que segue unha distribución normal multivariante pode ser descrita coa seguinte notación:


 

ou facer explícito que X é n-dimensional,


 

Función de distribuciónEditar

A función de distribución   defínese como a probabilidade de que todos os valores dun vector aleatorio   sexan menores ou iguais que os valores correspondentes dun vector  . Aínda que F non teña unha fórmula, hai unha serie de algoritmos que permiten estimala numericamente.[1]

ContraexemploEditar

O feito de que dúas variables aleatorias X e Y sigan unha distribución normal, cada unha, non implica que o par (XY) siga unha distribución normal conxunta. Un exemplo simple dáse con X Normal(0,1), Y = X se |X| > 1 e Y = −X se |X| < 1. isto tamén é certo para máis de dúas variables aleatorias.

Normalmente distribuídas e independenciaEditar

Se X e Y están normalmente distribuídas e son independentes, a súa distribución conxunta tamén está normalmente distribuída, é dicir, o par (XY) debe ter unha distribución normal bivariante. En calquera caso, un par de variables aleatorias normalmente distribuídas non teñen por que ser independentes ao seren consideradas de forma conxunta.

Caso bivarianteEditar

No caso particular de dúas dimensións, a función de densidade (con media (0, 0)) é

 

onde   é o coeficiente de correlación entre   e  . Neste caso,

 

Transformación afínEditar

Se   é unha transformación afín de   onde   é un vector de constantes   e   unha matriz  , entón   ten unha distribución normal multivariante con esperanza   e varianza   é dicir,  . En particular, calquera subconxunto dos   ten unha distribución marxinal que é tamén unha normal multivariante.

Para ver isto, pode considerarse o seguinte exemplo: para extraer o subconxunto  , emprégase

 

o que extrae directamente os elementos desexados.

Outro corolario sería que a distribución de  , onde   é un vector da mesma lonxitude que   e o punto indica un produto vectorial, é unha distribución gaussiana unidimensional con  . Este resultado obtense empregando

 

e considerando só a primeira compoñente do produto (a primeira fila de   é o vector  ). A definición positiva de   implica que a varianza do produto vectorial debería ser positiva.

Interpretación xeométricaEditar

As curvas de equidensidade dunha distribución normal multivariante son elipsoides (é dicir, transformacións lineares de hiperesferas) centrados na media.[2] as direccións dos eixes principais dos elipsoides veñen dadas polos vectores propios da matriz de covarianza  . As lonxitudes relativas dos cadrados dos eixes principais veñen dadas polos correspondentes vectores propios.

Se   é unha descomposición espectral onde as columnas de U son vectores propios unitarios e   é unha matriz diagonal de valores propios, entón temos

 

Ademais, U pode escollerse de tal modo que sexa unha matriz de rotación, tal que invertendo un eixe non teña ningún efecto en  , pero invertendo unha columna, cambie o signo do determinante de U'. A distribución   é en efecto   escalada por  , rotada por U e trasladada por  .

Reciprocamente, calquera escolla de  , matriz de rango completo U, e valores diagonais positivos   cede o paso a unha distribución normal non singular multivariante. Se calquera   é cero e U é cadrada, a matriz de covarianza   é singular. Xeometricamente isto significa que cada curva elipsoide é infinitamente delgada e ten volume cero nun espazo n-dimensional, así como, polo menos, un dos principais eixes ten lonxitude cero.

Correlacións e independenciaEditar

En xeral, as variables aleatorias poden ser incorreladas, pero altamente dependentes, mais se un vector aleatorio ten unha distribución normal multivariante, entón calquera dúas ou máis das súas compoñentes que sexan incorreladas, son independentes.

Porén, non é certo que dúas variables aleatorias que están (separadamente, marxinalmente) normalmente distribuídas e incorreladas sexan independentes. Dúas variables aleatorias que están normalmente distribuídas poden que non o estean conxuntamente.

Momentos máis altosEditar

O momento estándar de k-ésima orde de X defínese como

 

onde  

Os momentos centrais de orde k veñen dados como segue:

(a) Se k é impar,  .

(b) Se k é par, con  , entón

 

onda a suma se toma sobre todas as disposicións de conxuntos   en   pares (non ordenados). É dicir, se se ten un k-ésimo ( ) momento central, estaranse a sumar os produtos de   covarianzas (a notación -  suprimiuse para facilitar a lectura):

 

Isto dá lugar a   termos na suma (15 no caso superior), nos que cada un é o produto de   (3 neste caso) covarianzas. Para momentos de orde cuarta (catro variables) hai tres termos. Para momentos de orde sexta hai 3 × 5 = 15 termos, e para momentos de orde oitava hai 3 × 5 × 7 = 105 termos.

As covarianzas son entón determinadas mediante a substitución dos termos da lista   polos termos correspondentes da lista que consiste en   uns, logo   douses etc... Para ilustrar isto, pode examinarse o seguinte caso de momento central de orde cuarta:

 
 
 
 
 

onde   é a covarianza de   e  . A idea do método descrito é que primeiro se atopa o caso xeral para o momento  -ésimo, onde se teñen   diferentes variables   -   e entón pódense simplificar apropiadamente. Se se ten   entón, simplemente se considera   e dedúcese que  .

Distribucións condicionaisEditar

Se   y   se dividen como segue:

  con tamaños  
  con tamaños  

entón a distribución de   condicionada a   é unha normal multivariante   onde

 

e matriz de covarianza

 

Esta matriz é o complemento de Schur de   en  . Isto significa que para calcular a matriz condicional de covarianza se inverte a matriz global de covarianza, desprézanse as filas e as columnas correspondentes ás variables baixo as que está condicionada e entón invértese de novo para conseguir a matriz condicional de covarianza.

Sábese que   altera a varianza, aínda que a nova varianza non dependa do valor específico de  ; quizais resulta máis sorprendente que a media se cambia por  ; pode compararse isto coa situación na que non se coñece o valor de  , caso no que   tería como distribución

 .

A matriz   coñécese como a matriz de coeficientes de regresión.

Esperanza condicional bivarianteEditar

No caso

 

entón

 

onde esta última razón adoita chamarse razón inversa de Mills.

Matriz de información de FisherEditar

A matriz de información de Fisher (MIF) para unha distribución normal toma unha formulación especial. O elemento   da MIF para   é

 

onde

  •  
  •  
  •  
  •   é a función traza dunha matriz.

Diverxencia de Kullback-LeiblerEditar

A diverxencia de Kullback-Leibler de   a   é:

 

O logaritmo debe tomarse con base e nos dous termos (logaritmos neperianos); seguindo o logaritmo están os logaritmos neperianos das expresións que son ambos os factores da función de densidade ou se non, xorden naturalmente. A diverxencia de arriba mídese en nats. Dividindo a expresión de arriba por loge 2 dáse paso a a diverxencia en bits.

Estimación de parámetrosEditar

A función de densidade de probabilidade dunha normal multivariante N-dimensional é

 

e o estimador de máxima verosimilitude da matriz de covarianza para unha mostra de n observacións é

 

o que é, simplemente, a matriz da mostra de covarianza. Este é un estimador con nesgo que ten como esperanza

 

Unha covarianza da mostra sen nesgo é

 

EntropíaEditar

A entropía diferencial da distribución normal multivariante é[3]

 

onde   é o determinante da matriz de covarianza  .

Tests de normalidade multivarianteEditar

Os tests de normalidade multivariante comproban a similitude dun conxunto dado de datos coa distribución normal multivariante. A hipótese nula é que o conxunto de datos é similar á distribución normal e polo tanto un p-valor suficientemente pequeno indica datos non normais. Os tests de normalidade multivariante inclúen o test de Cox-Small[4] e a adaptación de Smith y Jain [5] do test de Friedman-Rafsky.

Simulando valores da distribuciónEditar

Un método amplamente empregado para simular un vector aleatorio   da distribución normal multivariada  -dimensional con vector de medias   e matriz de covarianza   (requirida para que sexa simétrica e definida positiva) funciona como segue:

  1. Calcúlase a descomposición de Cholesky de  , é dicir, atópase a única matriz triangular inferior   tal que  . Podería empregarse calquera outra matriz   que satisfaga esta condición, ou sexa, que é un a raíz cadrada de  , mais habitualmente atopar esa matriz, distinta da da descomposición de Cholesky, sería bastante máis custoso en termos de computación.
  2. Sexa   un vector con compoñentes   normais e independentes que varían e que pode xerarse, por exemplo, empregando o método de Box-Muller.
  3. Sexa    

NotasEditar

  1. Pode verse MVNDST en [1], que inclúe código FORTRAN ou [2], con código MATLAB.
  2. Nikolaus Hansen. "The CMA Evolution Strategy: A Tutorial" (PDF). Arquivado dende o orixinal (PDF) o 31 de marzo de 2010. Consultado o 19 de maio de 2016. 
  3. Gokhale, DV; Ahmed, NA; Res, BC; Piscataway, NJ (1989). "Entropy Expressions and Their Estimators for Multivariate Distributions". Information Theory, IEEE Transactions on 35 (3): 688–692. doi:10.1109/18.30996. 
  4. Cox, D. R.; Small, N. J. H. (1978). "Testing multivariate normality". Biometrika 65 (2): 263–272. doi:10.1093/biomet/65.2.263. 
  5. Smith, Stephen P.; Jain, Anil K. (1988). "A test to determine the multivariate normality of a dataset". IEEE Transactions on Pattern Analysis and Machine Intelligence 10 (5): 757–761. doi:10.1109/34.6789.