Disuguaglianza di Cramér-Rao

In statistica, la disuguaglianza di Cramér-Rao, che prende il nome da Harald Cramér e Calyampudi Radhakrishna Rao, afferma che il reciproco della matrice informazione di Fisher   I ( ϑ ) {\displaystyle \ {\mathcal {I}}(\vartheta )} per un parametro   ϑ {\displaystyle \ \vartheta } costituisce un limite inferiore alla varianza di uno stimatore corretto per il parametro (denotato   ϑ ^ {\displaystyle \ {\hat {\vartheta }}} ):

  var ( ϑ ^ ) 1 I ( ϑ ) = 1 n E [ ( ϑ ln f ( X ; ϑ ) ) 2 ] {\displaystyle \ {\mbox{var}}\left({\hat {\vartheta }}\right)\geq {\frac {1}{{\mathcal {I}}(\vartheta )}}={\frac {1}{n{\mbox{E}}\left[\left({\frac {\partial }{\partial \vartheta }}\ln f(X;\vartheta )\right)^{2}\right]}}}

In alcuni casi, non esiste uno stimatore corretto che consegue il limite inferiore così stabilito.

Non è infrequente trovare riferimenti alla disuguaglianza di Cramér-Rao come al limite inferiore di Cramér-Rao.

Si ritiene che il matematico francese Maurice René Fréchet sia stato il primo a scoprire e dimostrare questa disuguaglianza.[1]

Condizioni di regolarità

La disuguaglianza di Cramér-Rao si fonda su due deboli condizioni di regolarità che caratterizzano la funzione di densità   f ( x ; ϑ ) {\displaystyle \ f(x;\vartheta )} , e lo stimatore adottato,   T ( X ) {\displaystyle \ T(X)} . Tali condizioni richiedono che:

  • L'informazione di Fisher sia sempre definita; ciò equivale a richiedere che, per ogni   x {\displaystyle \ x} tale che   f ( x ; ϑ ) > 0 {\displaystyle \ f(x;\vartheta )>0} ,
  ϑ ln f ( x ; ϑ ) < {\displaystyle \ {\frac {\partial }{\partial \vartheta }}\ln f(x;\vartheta )<\infty }
  • Le operazioni di integrazione rispetto a   x {\displaystyle \ x} e di derivazione rispetto a   ϑ {\displaystyle \ \vartheta } possano essere scambiate all'interno del valore atteso dello stimatore   T ( X ) {\displaystyle \ T(X)} , ossia:
  ϑ [ T ( x ) f ( x ; ϑ ) d x ] = T ( x ) [ ϑ f ( x ; ϑ ) ] d x {\displaystyle \ {\frac {\partial }{\partial \vartheta }}\left[\int T(x)f(x;\vartheta )dx\right]=\int T(x)\left[{\frac {\partial }{\partial \vartheta }}f(x;\vartheta )\right]dx}
ogniqualvolta il secondo membro della relazione sopra è finito.

Laddove la seconda condizione di regolarità è estesa al secondo ordine di derivazione, è possibile esprimere la disuguaglianza tramite una forma alternativa dell'informazione di Fisher, così che il limite inferiore di Cramér-Rao è dato da:

  var ( ϑ ^ ) 1 I ( ϑ ) = 1 E [ 2 ϑ 2 ln f ( X ; ϑ ) ] {\displaystyle \ {\mbox{var}}\left({\hat {\vartheta }}\right)\geq {\frac {1}{{\mathcal {I}}(\vartheta )}}={\frac {1}{-{\mbox{E}}\left[{\frac {\partial ^{2}}{\partial \vartheta ^{2}}}\ln f(X;\vartheta )\right]}}}

In alcuni casi, può risultare più semplice applicare la disuguaglianza nella forma testé espressa.

Si osservi che uno stimatore non corretto potrà avere una varianza o uno scarto quadratico medio inferiore al limite di Cramér-Rao; questo perché la disuguaglianza è riferita esclusivamente a stimatori corretti.

Dimostrazione

La dimostrazione della disuguaglianza di Cramér-Rao passa attraverso la verifica di un risultato più generale; per un qualsiasi stimatore (statistica di un campione   X {\displaystyle \ X} )   T = t ( X ) {\displaystyle \ T=t(X)} , il cui valore atteso è denotato da   ψ ( ϑ ) {\displaystyle \ \psi (\vartheta )} , e per ogni   ϑ {\displaystyle \ \vartheta } :

  var ( t ( X ) ) [ ψ ( ϑ ) ] 2 I ( ϑ ) {\displaystyle \ {\mbox{var}}(t(X))\geq {\frac {\left[\psi '(\vartheta )\right]^{2}}{{\mathcal {I}}(\vartheta )}}}

La disuguglianza di Cramér-Rao discende direttamente da quest'ultima relazione, come caso particolare.

Sia dunque   X {\displaystyle \ X} una variabile casuale, avente funzione di densità   f ( x ; ϑ ) {\displaystyle \ f(x;\vartheta )} .   T = t ( X ) {\displaystyle \ T=t(X)} è una statistica utilizzata come estimatore del parametro   ϑ {\displaystyle \ \vartheta } . Sia inoltre   V {\displaystyle \ V} il suo score, o derivata logaritmica rispetto a ϑ {\displaystyle \vartheta } :

  V = ϑ ln f ( X ; ϑ ) {\displaystyle \ V={\frac {\partial }{\partial \vartheta }}\ln f(X;\vartheta )}

Il valore atteso   E ( V ) {\displaystyle \ {\mbox{E}}(V)} è nullo. Ciò a sua volta implica che   cov ( V , T ) = E ( V T ) E ( V ) E ( T ) = E ( V T ) {\displaystyle \ {\mbox{cov}}(V,T)={\mbox{E}}(VT)-{\mbox{E}}(V){\mbox{E}}(T)={\mbox{E}}(VT)} . Espandendo quest'ultima espressione, si ha:

  cov ( V , T ) = E ( T ϑ ln f ( X ; ϑ ) ) {\displaystyle \ {\mbox{cov}}(V,T)={\mbox{E}}\left(T{\frac {\partial }{\partial \vartheta }}\ln f(X;\vartheta )\right)}

Svolgendo la derivata tramite la regola della catena:

  x ln g ( x ) = 1 g ( x ) g x {\displaystyle \ {\frac {\partial }{\partial x}}\ln g(x)={\frac {1}{g(x)}}{\frac {\partial g}{\partial x}}}

e conoscendo la definizione di speranza matematica:

  E ( T ϑ ln f ( X ; ϑ ) ) = t ( x ) [ ϑ f ( x ; ϑ ) ] d x = ϑ [ t ( x ) f ( x ; ϑ ) d x ] = ψ ( ϑ ) {\displaystyle \ {\mbox{E}}\left(T{\frac {\partial }{\partial \vartheta }}\ln f(X;\vartheta )\right)=\int t(x)\left[{\frac {\partial }{\partial \vartheta }}f(x;\vartheta )\right]dx={\frac {\partial }{\partial \vartheta }}\left[\int t(x)f(x;\vartheta )dx\right]=\psi '(\vartheta )}

dal momento che gli operatori di derivazione e integrazione commutano.

Tramite la disuguaglianza di Cauchy-Schwarz si ha inoltre:

  var ( T ) var ( V ) ≥∣ cov ( V , T ) ∣= ψ ( ϑ ) {\displaystyle \ {\sqrt {{\mbox{var}}(T){\mbox{var}}(V)}}\geq \mid {\mbox{cov}}(V,T)\mid =\psi '(\vartheta )}

dunque:

  var ( T ) [ ψ ( ϑ ) ] 2 var ( V ) = [ ψ ( ϑ ) ] 2 I ( ϑ ) = [ ϑ E ( T ) ] 2 1 I ( ϑ ) {\displaystyle \ {\mbox{var}}(T)\geq {\frac {\left[\psi '(\vartheta )\right]^{2}}{{\mbox{var}}(V)}}={\frac {\left[\psi '(\vartheta )\right]^{2}}{{\mathcal {I}}(\vartheta )}}=\left[{\frac {\partial }{\partial \vartheta }}{\mbox{E}}(T)\right]^{2}{\frac {1}{{\mathcal {I}}(\vartheta )}}}

come volevasi dimostrare. Ora, se   T {\displaystyle \ T} è uno stimatore corretto per   ϑ {\displaystyle \ \vartheta } , E ( T ) = ϑ {\displaystyle {\mbox{E}}(T)=\vartheta } , e   ψ ( ϑ ) = 1 {\displaystyle \ \psi '(\vartheta )=1} ; dunque la relazione sopra diviene:

  var ( T ) 1 I ( ϑ ) {\displaystyle \ {\mbox{var}}(T)\geq {\frac {1}{{\mathcal {I}}(\vartheta )}}}

ossia la disuguaglianza di Cramér-Rao.

Estensione a più parametri

Al fine di estendere la disuguaglianza di Cramér-Rao al caso di un vettore di parametri, si definisca il vettore colonna:

θ = [ ϑ 1 , ϑ 2 , , ϑ d ] R d {\displaystyle {\boldsymbol {\theta }}=\left[\vartheta _{1},\vartheta _{2},\dots ,\vartheta _{d}\right]'\in \mathbb {R} ^{d}}

e sia ad esso associata una funzione di densità f ( x ; θ ) {\displaystyle f(x;{\boldsymbol {\theta }})} che soddisfi le condizioni di regolarità elemento per elemento.

L'informazione di Fisher   I ( θ ) {\displaystyle \ {\mathcal {I}}({\boldsymbol {\theta }})} è allora una matrice di dimensioni   d × d {\displaystyle \ d\times d} , il cui generico elemento   ( m , k ) {\displaystyle \ (m,k)} è definito da:

  I m , k = E [ ϑ m ln f ( x ; θ ) ϑ k ln f ( x ; θ ) ] {\displaystyle \ {\mathcal {I}}_{m,k}={\mbox{E}}\left[{\frac {\partial }{\partial \vartheta _{m}}}\ln f\left(x;{\boldsymbol {\theta }}\right){\frac {\partial }{\partial \vartheta _{k}}}\ln f\left(x;{\boldsymbol {\theta }}\right)\right]}

La disuguaglianza di Cramér-Rao è dunque formulata come:

cov θ ( T ( X ) ) ψ ( θ ) θ T I ( θ ) 1 ψ ( θ ) θ {\displaystyle {\mbox{cov}}_{\boldsymbol {\theta }}\left({\boldsymbol {T}}(X)\right)\geq {\frac {\partial {\boldsymbol {\psi }}\left({\boldsymbol {\theta }}\right)}{\partial {\boldsymbol {\theta }}^{T}}}{\mathcal {I}}\left({\boldsymbol {\theta }}\right)^{-1}{\frac {\partial {\boldsymbol {\psi }}\left({\boldsymbol {\theta }}\right)'}{\partial {\boldsymbol {\theta }}}}}

dove:

  • T ( X ) = [ T 1 ( X ) T 2 ( X ) T d ( X ) ] {\displaystyle {\boldsymbol {T}}(X)={\begin{bmatrix}T_{1}(X)&T_{2}(X)&\cdots &T_{d}(X)\end{bmatrix}}'}
  • ψ = E [ T ( X ) ] = [ ψ 1 ( θ ) ψ 2 ( θ ) ψ d ( θ ) ] {\displaystyle {\boldsymbol {\psi }}=\mathrm {E} \left[{\boldsymbol {T}}(X)\right]={\begin{bmatrix}\psi _{1}\left({\boldsymbol {\theta }}\right)&\psi _{2}\left({\boldsymbol {\theta }}\right)&\cdots &\psi _{d}\left({\boldsymbol {\theta }}\right)\end{bmatrix}}'}
  • ψ ( θ ) θ = [ ψ 1 ( θ ) ψ 2 ( θ ) ψ d ( θ ) ] [ ϑ 1 ϑ 2 ϑ d ] = [ ψ 1 ( θ ) ϑ 1 ψ 1 ( θ ) ϑ 2 ψ 1 ( θ ) ϑ d ψ 2 ( θ ) ϑ 1 ψ 2 ( θ ) ϑ 2 ψ 2 ( θ ) ϑ d ψ d ( θ ) ϑ 1 ψ d ( θ ) ϑ 2 ψ d ( θ ) ϑ d ] {\displaystyle {\frac {\partial {\boldsymbol {\psi }}\left({\boldsymbol {\theta }}\right)}{\partial {\boldsymbol {\theta }}'}}={\begin{bmatrix}\psi _{1}\left({\boldsymbol {\theta }}\right)\\\psi _{2}\left({\boldsymbol {\theta }}\right)\\\vdots \\\psi _{d}\left({\boldsymbol {\theta }}\right)\end{bmatrix}}{\begin{bmatrix}{\frac {\partial }{\partial \vartheta _{1}}}&{\frac {\partial }{\partial \vartheta _{2}}}&\cdots &{\frac {\partial }{\partial \vartheta _{d}}}\end{bmatrix}}={\begin{bmatrix}{\frac {\partial \psi _{1}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{1}}}&{\frac {\partial \psi _{1}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{2}}}&\cdots &{\frac {\partial \psi _{1}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{d}}}\\{\frac {\partial \psi _{2}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{1}}}&{\frac {\partial \psi _{2}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{2}}}&\cdots &{\frac {\partial \psi _{2}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{d}}}\\\vdots &\vdots &\ddots &\vdots \\{\frac {\partial \psi _{d}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{1}}}&{\frac {\partial \psi _{d}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{2}}}&\cdots &{\frac {\partial \psi _{d}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{d}}}\end{bmatrix}}}
  • ψ ( θ ) θ = [ ϑ 1 ϑ 2 ϑ d ] [ ψ 1 ( θ ) ψ 2 ( θ ) ψ d ( θ ) ] = [ ψ 1 ( θ ) ϑ 1 ψ 2 ( θ ) ϑ 1 ψ d ( θ ) ϑ 1 ψ 1 ( θ ) ϑ 2 ψ 2 ( θ ) ϑ 2 ψ d ( θ ) ϑ 2 ψ 1 ( θ ) ϑ d ψ 2 ( θ ) ϑ d ψ d ( θ ) ϑ d ] {\displaystyle {\frac {\partial {\boldsymbol {\psi }}\left({\boldsymbol {\theta }}\right)'}{\partial {\boldsymbol {\theta }}}}={\begin{bmatrix}{\frac {\partial }{\partial \vartheta _{1}}}\\{\frac {\partial }{\partial \vartheta _{2}}}\\\vdots \\{\frac {\partial }{\partial \vartheta _{d}}}\end{bmatrix}}{\begin{bmatrix}\psi _{1}\left({\boldsymbol {\theta }}\right)&\psi _{2}\left({\boldsymbol {\theta }}\right)&\cdots &\psi _{d}\left({\boldsymbol {\theta }}\right)\end{bmatrix}}={\begin{bmatrix}{\frac {\partial \psi _{1}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{1}}}&{\frac {\partial \psi _{2}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{1}}}&\cdots &{\frac {\partial \psi _{d}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{1}}}\\{\frac {\partial \psi _{1}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{2}}}&{\frac {\partial \psi _{2}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{2}}}&\cdots &{\frac {\partial \psi _{d}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{2}}}\\\vdots &\vdots &\ddots &\vdots \\{\frac {\partial \psi _{1}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{d}}}&{\frac {\partial \psi _{2}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{d}}}&\cdots &{\frac {\partial \psi _{d}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{d}}}\end{bmatrix}}}

e   cov θ ( T ( X ) ) {\displaystyle \ {\mbox{cov}}_{\boldsymbol {\theta }}\left({\boldsymbol {T}}(X)\right)} è una matrice semidefinita positiva, ossia tale per cui   x cov θ ( T ( X ) ) x 0     x R d ,   x 0 {\displaystyle \ x'{\mbox{cov}}_{\boldsymbol {\theta }}\left({\boldsymbol {T}}(X)\right)x\geq 0\ \forall \ x\in \mathbb {R} ^{d},\ x\neq \mathbf {0} } .

Se   T ( X ) = [ T 1 ( X ) T 2 ( X ) T d ( X ) ] {\displaystyle \ {\boldsymbol {T}}(X)={\begin{bmatrix}T_{1}(X)&T_{2}(X)&\cdots &T_{d}(X)\end{bmatrix}}'} è uno stimatore corretto, e dunque   ψ ( θ ) = θ {\displaystyle \ {\boldsymbol {\psi }}({\boldsymbol {\theta }})={\boldsymbol {\theta }}} , la disuguaglianza di Cramér-Rao è:

  cov θ ( T ( X ) ) I ( θ ) 1 {\displaystyle \ {\mbox{cov}}_{\boldsymbol {\theta }}({\boldsymbol {T}}(X))\geq {\mathcal {I}}({\boldsymbol {\theta }})^{-1}}

La disuguaglianza stessa è da intendersi nel senso che la differenza tra il primo e il secondo membro è ancora una matrice semidefinita positiva.

Disuguaglianza di Cramér-Rao ed efficienza

La disuguaglianza di Cramér-Rao è strettamente legata al concetto di efficienza di uno stimatore. In particolare, è possibile definire una misura di efficienza per uno stimatore   T ( X ) {\displaystyle \ T(X)} per il parametro (o vettore di parametri)   ϑ {\displaystyle \ \vartheta } , come:

  e ( T ) = 1 I ( ϑ ) var ( T ) {\displaystyle \ e(T)={\frac {\frac {1}{{\mathcal {I}}(\vartheta )}}{{\mbox{var}}(T)}}}

ossia la minima varianza possibile per uno stimatore corretto, basata sulla disuguaglianza di Cramér-Rao, rapportata all'effettiva varianza. In base alla disuguaglianza di Cramér-Rao, ovviamente   e ( T ) 1 {\displaystyle \ e(T)\leq 1} .

Illustrazione del risultato

Si illustra il significato della disuguaglianza di Cramér-Rao tramite un esempio basato sulla variabile casuale normale multivariata. Sia un vettore aleatorio   x R d {\displaystyle \ \mathbf {x} \in \mathbb {R} ^{d}} , tale che:

  x N ( μ ( θ ) , Σ ( θ ) ) ,   μ ( θ ) R d ,   Σ ( θ ) R d × d {\displaystyle \ \mathbf {x} \sim N\left(\mu ({\boldsymbol {\theta }}),\Sigma ({\boldsymbol {\theta }})\right),\ \mu ({\boldsymbol {\theta }})\in \mathbb {R} ^{d},\ \Sigma ({\boldsymbol {\theta }})\in \mathbb {R} ^{d\times d}}

dove   N ( ) {\displaystyle \ N(\cdot )} denota la distribuzione normale; la funzione di densità multivariata associata è:

  f X ( x ; θ ) = 1 ( 2 π ) d | Σ | exp { 1 2 ( x μ ) Σ 1 ( x μ ) } {\displaystyle \ f_{\mathbf {X} }(\mathbf {x} ;{\boldsymbol {\theta }})={\frac {1}{\sqrt {(2\pi )^{d}|\Sigma |}}}\exp \left\{-{\frac {1}{2}}(\mathbf {x} -\mu )'\Sigma ^{-1}(\mathbf {x} -\mu )\right\}}

La matrice informazione di Fisher ha generico elemento   ( m , k ) {\displaystyle \ (m,k)} :

  I ( θ ) m , k = μ ϑ m Σ 1 μ μ k + 1 2 tr ( Σ 1 Σ ϑ m Σ 1 Σ ϑ k ) {\displaystyle \ {\mathcal {I}}({\boldsymbol {\theta }})_{m,k}={\frac {\partial \mu '}{\partial \vartheta _{m}}}\Sigma ^{-1}{\frac {\partial \mu }{\partial \mu _{k}}}+{\frac {1}{2}}{\mbox{tr}}\left(\Sigma ^{-1}{\frac {\partial \Sigma }{\partial \vartheta _{m}}}\Sigma ^{-1}{\frac {\partial \Sigma }{\partial \vartheta _{k}}}\right)}

dove   tr ( ) {\displaystyle \ {\mbox{tr}}(\cdot )} denota l'operatore traccia di una matrice.

Si consideri caso di un vettore aleatorio gaussiano come sopra, di dimensione   n {\displaystyle \ n} , con media nulla ed elementi indipendenti aventi ciascuno varianza   σ 2 {\displaystyle \ \sigma ^{2}} :

  x N ( 0 , σ 2 I ) {\displaystyle \ x\sim N(\mathbf {0} ,\sigma ^{2}I)}

La matrice informazione di Fisher è allora   1 × 1 {\displaystyle \ 1\times 1} :

  I ( σ 2 ) = 1 2 tr ( Σ 1 Σ ϑ m Σ 1 Σ ϑ k ) = 1 2 σ 2 tr ( I ) = n 2 σ 2 {\displaystyle \ {\mathcal {I}}(\sigma ^{2})={\frac {1}{2}}{\mbox{tr}}\left(\Sigma ^{-1}{\frac {\partial \Sigma }{\partial \vartheta _{m}}}\Sigma ^{-1}{\frac {\partial \Sigma }{\partial \vartheta _{k}}}\right)={\frac {1}{2\sigma ^{2}}}{\mbox{tr}}(I)={\frac {n}{2\sigma ^{2}}}}

Dunque il limite inferiore di Cramér-Rao per la varianza di uno stimatore   T σ 2 {\displaystyle \ T_{\sigma ^{2}}} per   σ 2 {\displaystyle \ \sigma ^{2}} è dato da:

  var ( T σ 2 ) 2 σ 2 n {\displaystyle \ {\mbox{var}}(T_{\sigma ^{2}})\geq {\frac {2\sigma ^{2}}{n}}}

Giova osservare che tale limite è pari alla varianza teorica dello stimatore di massima verosimiglianza per il parametro   σ 2 {\displaystyle \ \sigma ^{2}} nelle ipotesi presentate.

Note

  1. ^ Wiebe R. Pestman, Mathematical Statistics: An Introduction, Walter de Gruyter, 1998, ISBN 3-11-015357-2, p. 118.

Bibliografia

  • D.C. Boes, F.A. Graybill, A.M. Mood (1988), Introduzione alla Statistica, McGraw-Hill Libri Italia, ISBN 88-386-0661-7, un testo di riferimento per i fondamenti della statistica matematica; la disuguaglianza di Cramér-Rao è trattata nei capitoli sui metodi di ricerca degli stimatori.
  • Alexander Craig Aitken e Harold Silverstone, "On the Estimation of Statistical Parameters", in Proceedings of the Royal Society of Edinburgh, 1942, vol. 61, pp. 186-194, dove gli autori sviluppano idee di Ronald Fisher descrivendo un caso particolare di quella che sarebbe diventate la Disuguaglianza di Cramèr-Rao

Voci correlate

  Portale Matematica: accedi alle voci di Wikipedia che trattano di matematica