Quotient de Rayleigh

En mathématiques, pour une matrice hermitienne A et un vecteur x non nul, le quotient de Rayleigh est l’expression scalaire définie par

R ( A , x ) = x A x x x {\displaystyle R(A,x)={\frac {x^{*}Ax}{x^{*}x}}}

x* désigne le vecteur adjoint de x. Pour une matrice symétrique à coefficients réels, le vecteur x* est simplement son transposé xT.

Dans les deux cas, le quotient de Rayleigh fournit une valeur réelle qui renseigne sur le spectre de la matrice par les deux propriétés fondamentales suivantes :

  • il atteint un point critique (extremum ou point-selle) au voisinage des vecteurs propres de la matrice ;
  • appliqué à un vecteur propre, le quotient de Rayleigh fournit la valeur propre correspondante.

Ces deux propriétés peuvent être exploitées pour déterminer numériquement les valeurs, vecteurs et espaces propres d'un opérateur hermitien ou symétrique.

Le quotient de Rayleigh, dont la propriété d'extremum peut être reliée au principe du minimum de l'énergie potentielle en mécanique, a été étudié pour la première fois par Rayleigh (1877). Walter Ritz reprit l'idée en 1909 pour en faire la base d’une méthode d’approximation variationnelle.

Propriétés

Partant d'une matrice symétrique respectivement hermitienne (dont les valeurs propres sont réelles), le quotient de Rayleigh satisfait les propriétés suivantes :

  1. C’est une fonction homogène de degré 1 puisque R(A,cx)=R(A,x) pour tout scalaire c.
  2. Pour tout x non nul, λ min R ( A , x ) λ max {\displaystyle \lambda _{\min }\leq R(A,x)\leq \lambda _{\max }} λ min {\displaystyle \lambda _{\min }} et λ max {\displaystyle \lambda _{\max }} sont les valeurs propres extrêmes de A. Une égalité est atteinte si et seulement si x est vecteur propre pour la valeur propre extrême correspondante[1].
  3. Si x0 est un vecteur propre à valeur propre non extrême, alors R(A,x) présente un point-selle dans le voisinage de x0.
Eléments de justification
Preuve de la propriété 2

Dans le cas réel, la matrice symétrique est diagonalisable dans le sens où il existe une matrice orthogonale O (dont les colonnes sont des vecteurs propres) et une matrice diagonale D dont les coefficients sont les valeurs propres λ i {\displaystyle \lambda _{i}} telles que

A = O D O T . {\displaystyle A=ODO^{T}.}

Dans le cas complexe, la matrice hermitienne peut être diagonalisée à l’aide d’une matrice unitaire A = U D U {\displaystyle A=UDU^{*}} et le raisonnement est identique.

Le changement de variable y = O T x {\displaystyle y=O^{T}x} préserve la norme euclidienne et ainsi

R ( A , x ) = Φ ( y )  avec  Φ ( y ) = i λ i y i 2 i y i 2 . {\displaystyle R(A,x)=\Phi (y){\text{ avec }}\Phi (y)={\frac {\sum _{i}\lambda _{i}y_{i}^{2}}{\sum _{i}y_{i}^{2}}}.}

Dans les variables yi, le quotient de Rayleigh est une moyenne pondérée des valeurs propres, ce qui justifie la propriété 2.

Preuve de la propriété 3

On suppose que les valeurs propres sont distinctes les unes des autres ; dans le cas contraire, il suffit de rassembler les termes de Φ(y) par groupes de valeurs propres multiples.

On vérifie que le gradient et la matrice hessienne de Φ(y) s’écrivent respectivement

Φ ( y ) y i = 2 y 2 y i ( λ i Φ ( y ) ) . {\displaystyle {\frac {\partial \Phi (y)}{\partial y_{i}}}={\frac {2}{\left\|y\right\|^{2}}}\,y_{i}\,(\lambda _{i}-\Phi (y)).}
H ( Φ ( y ) ) = 2 y 2 ( J + 2 y 2 S ) {\displaystyle H(\Phi (y))={\frac {2}{\left\|y\right\|^{2}}}(J+{\frac {2}{\left\|y\right\|^{2}}}S)}

J est une matrice diagonale :

J i i = λ i Φ ( y ) {\displaystyle J_{ii}=\lambda _{i}-\Phi (y)}
S i j = y i y j ( 2 Φ ( y ) λ i λ j ) . {\displaystyle S_{ij}=y_{i}\,y_{j}\,(2\,\Phi (y)-\lambda _{i}-\lambda _{j}).}

Avec des valeurs propres distinctes, le gradient s’annule si et seulement si tous les yi sont nuls sauf un. En choisissant arbitrairement un indice k et en posant y i = δ i k {\displaystyle y_{i}=\delta _{ik}} (symbole de Kronecker), on en déduit :

Φ ( y ) = λ k , {\displaystyle \Phi (y)=\lambda _{k},}
J i i = λ i λ k  et  S i j = 0 , {\displaystyle J_{ii}=\lambda _{i}-\lambda _{k}{\text{ et }}S_{ij}=0,}
H ( Φ ( y ) ) {\displaystyle H(\Phi (y))} est diagonale avec H i i = 2 ( λ i λ k ) . {\displaystyle H_{ii}=2(\lambda _{i}-\lambda _{k}).}

Finalement

  • Si yk est l’une des deux valeurs propres extrêmes, il s’agit bien d’un extremum de Φ(y) car les éléments de H sont de même signe.
  • Sinon, les termes diagonaux de H changent de signe et il s’agit d’un point-selle.

Remarque : Hkk=0 reflète le caractère homogène de Φ(y).

Autre approche

La norme de x n’ayant pas d’effet par la propriété 1, on peut également formuler le problème par la méthode des multiplicateurs de Lagrange en recherchant x qui maximise (ou minimise) xT A x sous la contrainte xT x = 1 Il s’agit ainsi de considérer la fonction

Ψ ( x , μ ) = x T A x + μ ( 1 x T x ) {\displaystyle \Psi (x,\mu )=x^{T}Ax+\mu (1-x^{T}x)}

et de rechercher x et μ qui annulent la différentielle de Ψ(x,μ). La solution est donnée par les conditions nécessaires (mais non suffisantes en général) suivantes :

A x = μ x {\displaystyle Ax=\mu x}
x T x = 1. {\displaystyle x^{T}x=1.}

Combiné au théorème min-max de Courant-Fischer, le quotient de Rayleigh permet de déterminer une à une toutes les valeurs propres d'une matrice. On peut également l'employer pour calculer une valeur approchée d'une valeur propre à partir d'une approximation d'un vecteur propre. Ces idées forment d'ailleurs la base de l’algorithme d’itération de Rayleigh.

Cas particulier des matrices autoadjointes positives

Les matrices autoadjointes positives (ie semi-définie positives) possèdent des valeurs propres positives ou nulles et le quotient de Rayleigh reste ainsi toujours positif ou nul. C'est en particulier le cas pour les matrices de covariances et cette propriété est à la base de l'analyse en composantes principales et des corrélations canoniques.

Méthode de Rayleigh-Ritz

Article détaillé : Méthode de Rayleigh-Ritz.

La théorie de Sturm-Liouville a trait à l’action de l’application linéaire

L ( y ) = 1 w ( x ) ( d d x [ p ( x ) d y d x ] + q ( x ) y ) {\displaystyle L(y)={\frac {1}{w(x)}}\left(-{\frac {\mathrm {d} }{\mathrm {d} x}}\left[p(x){\frac {\mathrm {d} y}{\mathrm {d} x}}\right]+q(x)y\right)}

sur l’espace préhilbertien des fonctions y(x) vérifiant des conditions aux limites particulières en x=a et b, muni du produit scalaire : y 1 , y 2 = a b w ( x ) y 1 ( x ) y 2 ( x ) d x {\displaystyle \langle {y_{1},y_{2}}\rangle =\int _{a}^{b}{w(x)y_{1}(x)y_{2}(x)}\mathrm {d} x} .

Dans ce cas, le quotient de Rayleigh est

ρ ( x ) = y , L y y , y = a b y ( x ) ( d d x [ p ( x ) d y d x ] + q ( x ) y ( x ) ) d x a b w ( x ) y ( x ) 2 d x . {\displaystyle \rho (x)={\frac {\langle {y,Ly}\rangle }{\langle {y,y}\rangle }}={\frac {\int _{a}^{b}{y(x)\left(-{\frac {\mathrm {d} }{\mathrm {d} x}}\left[p(x){\frac {\mathrm {d} y}{\mathrm {d} x}}\right]+q(x)y(x)\right)}\mathrm {d} x}{\int _{a}^{b}{w(x)y(x)^{2}}\mathrm {d} x}}.}

On le présente parfois sous une forme équivalente, obtenue en découpant l'intégrale du numérateur et en intégrant par parties :

ρ ( x ) = y , L y y , y = a b y ( x ) ( d d x [ p ( x ) y ( x ) ] ) d x + a b q ( x ) y ( x ) 2 d x a b w ( x ) y ( x ) 2 d x {\displaystyle \rho (x)={\frac {\langle {y,Ly}\rangle }{\langle {y,y}\rangle }}={\frac {\int _{a}^{b}{y(x)\left(-{\frac {\mathrm {d} }{\mathrm {d} x}}\left[p(x)y'(x)\right]\right)}\mathrm {d} x+\int _{a}^{b}{q(x)y(x)^{2}}\mathrm {d} x}{\int _{a}^{b}{w(x)y(x)^{2}}\mathrm {d} x}}}
= y ( x ) [ p ( x ) y ( x ) ] | a b + a b y ( x ) [ p ( x ) y ( x ) ] d x + a b q ( x ) y ( x ) 2 d x a b w ( x ) y ( x ) 2 d x {\displaystyle ={\frac {-y(x)\left[p(x)y'(x)\right]|_{a}^{b}+\int _{a}^{b}{y'(x)\left[p(x)y'(x)\right]}\mathrm {d} x+\int _{a}^{b}{q(x)y(x)^{2}}\mathrm {d} x}{\int _{a}^{b}{w(x)y(x)^{2}}\mathrm {d} x}}}
= p ( x ) y ( x ) y ( x ) | a b + a b [ p ( x ) y ( x ) 2 + q ( x ) y ( x ) 2 ] d x a b w ( x ) y ( x ) 2 d x . {\displaystyle ={\frac {-p(x)y(x)y'(x)|_{a}^{b}+\int _{a}^{b}\left[p(x)y'(x)^{2}+q(x)y(x)^{2}\right]\mathrm {d} x}{\int _{a}^{b}{w(x)y(x)^{2}}\mathrm {d} x}}.}

Pour déterminer une solution approchée y ¯ ( x ) {\displaystyle {\bar {y}}(x)} de l’équation

d d x [ p ( x ) d y d x ] + q ( x ) y = 0 {\displaystyle -{\frac {\mathrm {d} }{\mathrm {d} x}}\left[p(x){\frac {\mathrm {d} y}{\mathrm {d} x}}\right]+q(x)y=0}

vérifiant les conditions aux limites, on choisit un certain nombre de fonctions u 1 , u 2 , . . . , u p {\displaystyle u_{1},u_{2},...,u_{p}} vérifiant elles-mêmes les conditions aux limites, et on cherche la solution approchée comme une combinaison linéaire des p modes retenus : y ¯ ( x ) = i = 1 p α i u i ( x ) {\displaystyle {\bar {y}}(x)=\textstyle \sum _{i=1}^{p}\alpha _{i}u_{i}(x)} . Les coefficients inconnus α i {\displaystyle \alpha _{i}} s’obtiennent en écrivant la stationnarité du quotient de Rayleigh : ρ α i = 0 {\displaystyle {\tfrac {\partial \rho }{\partial \alpha _{i}}}=0} , qui détermine p équations linéaires d'inconnues ( α i ) i = 1 , . . . , p {\displaystyle (\alpha _{i})_{i=1,...,p}}

Généralisation

On peut étendre la notion de quotient de Rayleigh à deux matrices symétriques définies positives réelles (A,B), et à un vecteur non-nul x, selon :

R ( A , B ; x ) := x T A x x T B x . {\displaystyle R(A,B;x):={\frac {x^{T}Ax}{x^{T}Bx}}.}

Ce « quotient de Rayleigh généralisé » se réduit au quotient de Rayleigh R(D,Cx) par la transformation D = C T A C 1 {\displaystyle D=C^{-T}AC^{-1}} C est la factorisation de Cholesky de la matrice B.

Notes et références

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Rayleigh quotient » (voir la liste des auteurs).
  1. Cf. par ex. Ciarlet 2006, p. 12-13.

Bibliographie

  • Philippe Ciarlet, Introduction à l’analyse numérique matricielle et à l’optimisation, Masson, coll. « Math. Appl. pour le Master », , 5e éd., 279 p. (ISBN 978-2-10-050808-2)
  • Patrick Lascaux et Raymond Théodor, Analyse numérique matricielle appliquée à l'art de l'ingénieur, t. 1 : Méthodes directes [détail des éditions], § 1.4 (« Forme hermitienne associée… »)
  • (en) John William Strutt Rayleigh, The Theory of Sound, vol. I, McMillan Co., (réimpr. 1945) (ISBN 0-486-60292-3, lire en ligne), chap. IV (« Vibrating systems in general »), p. 106-129
  • icône décorative Portail des mathématiques