Übergangskern

Dieser Artikel behandelt Übergangswahrscheinlichkeiten in der Wahrscheinlichkeitstheorie. Zu Übergangswahrscheinlichkeiten in der Physik siehe auch Übergangsdipolmoment und Vibronischer Übergang.

Als Übergangskern bezeichnet man spezielle Abbildungen zwischen Messräumen in der Wahrscheinlichkeitstheorie, die im ersten Argument messbar sind und im zweiten Argument ein Maß liefern. Spezialfälle von Übergangskernen sind die sogenannten stochastischen Kerne, die auch Markow-Kerne oder Wahrscheinlichkeitskerne genannt werden. Bei ihnen ist das Maß immer ein Wahrscheinlichkeitsmaß. Ist das Maß immer ein Sub-Wahrscheinlichkeitsmaß, so spricht man auch von Sub-Markow-Kernen oder substochastischen Kernen.

Insbesondere die Markow-Kerne spielen eine wichtige Rolle in der Wahrscheinlichkeitstheorie wie beispielsweise bei der Formulierung der regulären bedingten Verteilung oder der Theorie der stochastischen Prozesse. Hier bilden sie im Speziellen die Basis für die Formulierung der Übergangswahrscheinlichkeiten von Markow-Ketten oder Existenzaussagen wie den Satz von Ionescu-Tulcea.

Definition

Gegeben seien zwei Messräume ( Ω 0 , A 0 ) {\displaystyle (\Omega _{0},{\mathcal {A}}_{0})} und ( Ω 1 , A 1 ) {\displaystyle (\Omega _{1},{\mathcal {A}}_{1})} . Eine Abbildung K : Ω 0 × A 1 [ 0 , ] {\displaystyle K\colon \Omega _{0}\times {\mathcal {A}}_{1}\to [0,\infty ]} heißt ein Übergangskern von ( Ω 0 , A 0 ) {\displaystyle (\Omega _{0},{\mathcal {A}}_{0})} nach ( Ω 1 , A 1 ) {\displaystyle (\Omega _{1},{\mathcal {A}}_{1})} , wenn gilt:

  • Für jedes x Ω 0 {\displaystyle x\in \Omega _{0}} ist K ( x , ) {\displaystyle K(x,\;\cdot \;)} ein Maß auf ( Ω 1 , A 1 ) {\displaystyle (\Omega _{1},{\mathcal {A}}_{1})} .
  • Für jedes A 1 A 1 {\displaystyle A_{1}\in {\mathcal {A}}_{1}} ist K ( , A 1 ) {\displaystyle K(\;\cdot \;,A_{1})} eine A 0 {\displaystyle {\mathcal {A}}_{0}} -messbare Funktion.

Ist das Maß für alle x Ω 0 {\displaystyle x\in \Omega _{0}} ein σ-endliches Maß, so spricht man von einem σ-endlichen Übergangskern; ist es stets endlich, so spricht man von einem endlichen Übergangskern. Ist das Maß für alle x Ω 0 {\displaystyle x\in \Omega _{0}} ein Wahrscheinlichkeitsmaß, so nennt man K {\displaystyle K} einen stochastischen Kern oder Markow-Kern. Ist das Maß für alle x Ω 0 {\displaystyle x\in \Omega _{0}} ein Sub-Wahrscheinlichkeitsmaß, so heißt K {\displaystyle K} ein substochastischer Kern oder sub-Markow'scher Kern.

Bemerkung: Bei manchen Definitionen werden die Argumente von K {\displaystyle K} in umgekehrter Reihenfolge geschrieben, K ( A , x ) {\displaystyle K(A',x)} oder auch K ( A | x ) {\displaystyle K(A'|x)} , in Anlehnung an bedingte Wahrscheinlichkeiten.

Elementare Beispiele

  • Die Poisson-Verteilung Poi x ( A ) := K ( x , A ) {\displaystyle \operatorname {Poi} _{x}(A):=K(x,A)} ist ein Markow-Kern von ( R + , B ( R + ) ) {\displaystyle (\mathbb {R} _{+},{\mathcal {B}}(\mathbb {R} _{+}))} nach ( N , P ( N ) ) {\displaystyle (\mathbb {N} ,{\mathcal {P}}(\mathbb {N} ))} . Denn die Funktion f A ( x ) = Poi x ( A ) {\displaystyle f_{A}(x)=\operatorname {Poi} _{x}(A)} mit Parameter A P ( N ) {\displaystyle A\in {\mathcal {P}}(\mathbb {N} )} ist stetig in x R + {\displaystyle x\in \mathbb {R} _{+}} und daher messbar. Des Weiteren ist für jedes x R + {\displaystyle x\in \mathbb {R} _{+}} die Poisson-Verteilung mit Parameter x {\displaystyle x} eine Wahrscheinlichkeitsverteilung. Also handelt es sich um einen Übergangskern.
  • Die stochastische Matrix
A = ( 0 1 2 1 2 1 2 1 2 0 1 2 0 1 2 ) {\displaystyle A={\begin{pmatrix}0&{\tfrac {1}{2}}&{\tfrac {1}{2}}\\{\tfrac {1}{2}}&{\tfrac {1}{2}}&0\\{\tfrac {1}{2}}&0&{\tfrac {1}{2}}\end{pmatrix}}}
kann als ein Markow-Kern von ( { 1 , 2 , 3 } , P ( { 1 , 2 , 3 } ) ) {\displaystyle (\{1,2,3\},{\mathcal {P}}(\{1,2,3\}))} nach ( { 1 , 2 , 3 } , P ( { 1 , 2 , 3 } ) ) {\displaystyle (\{1,2,3\},{\mathcal {P}}(\{1,2,3\}))} aufgefasst werden. Denn für jedes i {\displaystyle i} ist die i {\displaystyle i} -te Zeile ein Wahrscheinlichkeitsvektor und damit ein Wahrscheinlichkeitsmaß auf { 1 , 2 , 3 } {\displaystyle \{1,2,3\}} . Außerdem ist sie eine Abbildung zwischen endlichen Mengen versehen mit der Potenzmenge und damit messbar.

Eigenschaften

Maße durch Kerne

Jedem Maß μ {\displaystyle \mu } auf ( Ω , A ) {\displaystyle (\Omega ,{\mathcal {A}})} ordnet K {\displaystyle K} durch

ν ( A ) = Ω K ( x , A ) μ ( d x ) {\displaystyle \nu (A')=\int _{\Omega }K(x,A')\mu (\mathrm {d} x)}

ein Maß ν {\displaystyle \nu } auf ( Ω , A ) {\displaystyle (\Omega ',{\mathcal {A}}')} zu. Dieses Maß wird üblicherweise mit μ K {\displaystyle \mu K} bezeichnet. Ist μ {\displaystyle \mu } ein Wahrscheinlichkeitsmaß, gilt also μ ( Ω ) = 1 {\displaystyle \mu (\Omega )=1} , dann ist auch μ K ( Ω ) = 1 {\displaystyle \mu K(\Omega ')=1} , das heißt, μ K {\displaystyle \mu K} ist ebenfalls ein Wahrscheinlichkeitsmaß.

Im Fall ( Ω , A ) = ( Ω , A ) {\displaystyle (\Omega ,{\mathcal {A}})=(\Omega ',{\mathcal {A}}')} wird ein Maß μ {\displaystyle \mu } , für das μ = μ K {\displaystyle \mu =\mu K} gilt, stationäres Maß genannt. Ein stationäres Wahrscheinlichkeitsmaß heißt auch stationäre Verteilung.

Messbare Funktionen durch Kerne

Jeder nichtnegativen messbaren Funktion g : Ω R {\displaystyle g\colon \Omega '\to \mathbb {R} } ordnet K {\displaystyle K} durch

f ( x ) = Ω g ( y ) K ( x , d y ) {\displaystyle f(x)=\int _{\Omega '}g(y)K(x,\mathrm {d} y)}

eine nichtnegative messbare Funktion f : Ω R {\displaystyle f\colon \Omega \to \mathbb {R} } zu. Diese Funktion wird üblicherweise mit K g {\displaystyle Kg} bezeichnet. Mit der Kurzschreibweise μ f = Ω f ( x ) μ ( d x ) {\displaystyle \mu f=\int _{\Omega }f(x)\,\mu (\mathrm {d} x)} gilt für alle Maße μ {\displaystyle \mu } auf ( Ω , A ) {\displaystyle (\Omega ,{\mathcal {A}})} und alle nichtnegativen messbaren Funktionen g : Ω R {\displaystyle g\colon \Omega '\to \mathbb {R} } die Gleichung ( μ K ) g = μ ( K g ) {\displaystyle (\mu K)g=\mu (Kg)} .

Diskreter Fall

Im diskreten Fall, wo Ω {\displaystyle \Omega } und Ω {\displaystyle \Omega '} endliche oder abzählbare Mengen sind, genügt es die Wahrscheinlichkeiten p i , j {\displaystyle p_{i,j}} anzugeben, mit denen man vom Zustand i {\displaystyle i} in den Zustand j {\displaystyle j} gelangt. Mit den Bezeichnungen des allgemeinen Falls gilt dann p i , j = K ( i , { j } ) {\displaystyle p_{i,j}=K(i,\{j\})} . Diese Wahrscheinlichkeiten bilden eine Übergangsmatrix M = ( p i , j ) i Ω , j Ω {\displaystyle M=(p_{i,j})_{i\in \Omega ,j\in \Omega '}} , die die Eigenschaft hat, dass alle Elemente zwischen 0 {\displaystyle 0} und 1 {\displaystyle 1} liegen und dass die Zeilensummen j Ω p i , j {\displaystyle \sum _{j\in \Omega '}p_{i,j}} den Wert 1 {\displaystyle 1} haben. Eine solche Matrix wird als stochastische Matrix bezeichnet. Sie ordnet jeder Wahrscheinlichkeitsverteilung auf Ω {\displaystyle \Omega } mit einer Zähldichte ρ = ( ρ i ) i Ω {\displaystyle \rho =(\rho _{i})_{i\in \Omega }} die Zähldichte

ρ M = ( i Ω ρ i p i , j ) j Ω {\displaystyle \rho M={\Bigl (}\sum _{i\in \Omega }\rho _{i}p_{i,j}{\Bigr )}_{j\in \Omega '}}

einer Wahrscheinlichkeitsverteilung auf Ω {\displaystyle \Omega '} zu, das heißt, ρ M {\displaystyle \rho M} wird mit der üblichen Matrixmultiplikation berechnet, wobei Zähldichten als Zeilenvektoren aufgefasst werden.

Ist g : Ω R {\displaystyle g\colon \Omega '\to \mathbb {R} } eine nichtnegative Funktion, aufgefasst als Spaltenvektor ( g j ) j Ω {\displaystyle (g_{j})_{j\in \Omega '}} mit nichtnegativen Einträgen, dann gilt

K g = ( j Ω p i , j g j ) i Ω {\displaystyle Kg={\Bigl (}\sum _{j\in \Omega '}p_{i,j}g_{j}{\Bigr )}_{i\in \Omega }} .

Das heißt, im diskreten Fall wird auch K g {\displaystyle Kg} , aufgefasst als Spaltenvektor mit Indizes in Ω {\displaystyle \Omega } , mit der üblichen Matrixmultiplikation berechnet.

Bemerkung: Bei manchen Definitionen werden Zeilen und Spalten der Matrix umgekehrt verwendet.

Operationen von Übergangskernen

Verkettung

Sind drei Messräume ( Ω 0 , A 0 ) , ( Ω 1 , A 1 ) , ( Ω 2 , A 2 ) {\displaystyle (\Omega _{0},{\mathcal {A}}_{0}),\;(\Omega _{1},{\mathcal {A}}_{1}),\,(\Omega _{2},{\mathcal {A}}_{2})} gegeben sowie zwei substochastische Kerne K 1 {\displaystyle K_{1}} von ( Ω 0 , A 0 ) {\displaystyle (\Omega _{0},{\mathcal {A}}_{0})} nach ( Ω 1 , A 1 ) {\displaystyle (\Omega _{1},{\mathcal {A}}_{1})} und K 2 {\displaystyle K_{2}} von ( Ω 1 , A 1 ) {\displaystyle (\Omega _{1},{\mathcal {A}}_{1})} nach ( Ω 2 , A 2 ) {\displaystyle (\Omega _{2},{\mathcal {A}}_{2})} , so ist die Verkettung der Kerne K 1 {\displaystyle K_{1}} und K 2 {\displaystyle K_{2}} eine Abbildung

K 1 K 2 : Ω 0 × A 2 [ 0 , ) {\displaystyle K_{1}\cdot K_{2}\colon \Omega _{0}\times {\mathcal {A}}_{2}\to [0,\infty )}

definiert durch

( K 1 K 2 ) ( x 0 , A 2 ) = Ω 1 K 1 ( x 0 , d x 1 ) K 2 ( x 1 , A 2 ) {\displaystyle (K_{1}\cdot K_{2})(x_{0},A_{2})=\int _{\Omega _{1}}K_{1}(x_{0},\mathrm {d} x_{1})K_{2}(x_{1},A_{2})} .

Die Verkettung ist dann ein substochastischer Kern von ( Ω 0 , A 0 ) {\displaystyle (\Omega _{0},{\mathcal {A}}_{0})} nach ( Ω 2 , A 2 ) {\displaystyle (\Omega _{2},{\mathcal {A}}_{2})} . Sind K 1 {\displaystyle K_{1}} und K 2 {\displaystyle K_{2}} stochastisch, dann ist auch K 1 K 2 {\displaystyle K_{1}\cdot K_{2}} stochastisch.

Produkte

Gegeben seien die Maßräume ( Ω 1 , A 1 ) , ( Ω 2 , A 2 ) {\displaystyle (\Omega _{1},{\mathcal {A}}_{1}),(\Omega _{2},{\mathcal {A}}_{2})} und ( Ω 3 , A 3 ) {\displaystyle (\Omega _{3},{\mathcal {A}}_{3})} und zwei endliche Übergangskerne K 1 {\displaystyle K_{1}} von ( Ω 1 , A 1 ) {\displaystyle (\Omega _{1},{\mathcal {A}}_{1})} nach ( Ω 2 , A 2 ) {\displaystyle (\Omega _{2},{\mathcal {A}}_{2})} und K 2 {\displaystyle K_{2}} von ( Ω 1 × Ω 2 , A 1 A 2 ) {\displaystyle (\Omega _{1}\times \Omega _{2},{\mathcal {A}}_{1}\otimes {\mathcal {A}}_{2})} nach ( Ω 3 , A 3 ) {\displaystyle (\Omega _{3},{\mathcal {A}}_{3})} . Dann definiert man das Produkt der Kerne K 1 {\displaystyle K_{1}} und K 2 {\displaystyle K_{2}}

K 1 K 2 : Ω 1 × ( A 2 A 3 ) [ 0 , ) {\displaystyle K_{1}\otimes K_{2}\colon \Omega _{1}\times ({\mathcal {A}}_{2}\otimes {\mathcal {A}}_{3})\to [0,\infty )}

als

( ω 1 , A ) Ω 2 K 1 ( ω 1 , d ω 2 ) Ω 3 K 2 ( ( ω 1 , ω 2 ) , d ω 3 ) χ A ( ( ω 2 , ω 3 ) ) {\displaystyle (\omega _{1},A)\mapsto \int _{\Omega _{2}}K_{1}(\omega _{1},\mathrm {d} \omega _{2})\int _{\Omega _{3}}K_{2}((\omega _{1},\omega _{2}),\mathrm {d} \omega _{3})\chi _{A}((\omega _{2},\omega _{3}))} .

Das Produkt K 1 K 2 {\displaystyle K_{1}\otimes K_{2}} ist dann ein σ-endlicher Übergangskern von ( Ω 1 , A 1 ) {\displaystyle (\Omega _{1},{\mathcal {A}}_{1})} nach ( Ω 2 × Ω 3 , A 2 A 3 ) {\displaystyle (\Omega _{2}\times \Omega _{3},{\mathcal {A}}_{2}\otimes {\mathcal {A}}_{3})} . Sind beide Kerne stochastisch (bzw. substochastisch), so ist auch das Produkt der Kerne stochastisch (bzw. substochastisch).

Ist K 2 {\displaystyle K_{2}} nur ein Kern von ( Ω 2 , A 2 ) {\displaystyle (\Omega _{2},{\mathcal {A}}_{2})} nach ( Ω 3 , A 3 ) {\displaystyle (\Omega _{3},{\mathcal {A}}_{3})} , so fasst man den Kern als Kern von ( Ω 1 × Ω 2 , A 1 A 2 ) {\displaystyle (\Omega _{1}\times \Omega _{2},{\mathcal {A}}_{1}\otimes {\mathcal {A}}_{2})} auf, der unabhängig von der ersten Komponente ist.

Weitere Beispiele

  • Ist ν : A [ 0 , 1 ] {\displaystyle \nu \colon {\mathcal {A}}'\to [0,1]} ein Wahrscheinlichkeitsmaß auf ( Ω , A ) {\displaystyle (\Omega ',{\mathcal {A}}')} , dann ist K ( x , A ) = ν ( A ) {\displaystyle K(x,A')=\nu (A')} eine (von x Ω {\displaystyle x\in \Omega } unabhängige) Übergangswahrscheinlichkeit.
  • Für ( Ω , A ) = ( Ω , A ) {\displaystyle (\Omega ,{\mathcal {A}})=(\Omega ',{\mathcal {A}}')} und das Diracmaß δ x {\displaystyle \delta _{x}} im Punkt x Ω {\displaystyle x\in \Omega } wird durch I ( x , A ) = δ x ( A ) {\displaystyle I(x,A)=\delta _{x}(A)} eine Übergangswahrscheinlichkeit von ( Ω , A ) {\displaystyle (\Omega ,{\mathcal {A}})} nach ( Ω , A ) {\displaystyle (\Omega ,{\mathcal {A}})} definiert, die auch Einheitskern genannt wird. Es gilt μ I = μ {\displaystyle \mu I=\mu } für alle Maße μ {\displaystyle \mu } auf ( Ω , A ) {\displaystyle (\Omega ,{\mathcal {A}})} und I f = f {\displaystyle If=f} für alle nichtnegativen messbaren Funktionen f : Ω R {\displaystyle f\colon \Omega \to \mathbb {R} } .
  • Sind k : Ω × Ω R {\displaystyle k\colon \Omega \times \Omega '\to \mathbb {R} } eine nichtnegative und bezüglich der Produkt-σ-Algebra A A {\displaystyle {\mathcal {A}}\otimes {\mathcal {A}}'} messbare Funktion und ν {\displaystyle \nu } ein Maß auf ( Ω , A ) {\displaystyle (\Omega ',{\mathcal {A}}')} mit Ω k ( x , y ) ν ( d y ) = 1 {\displaystyle \int _{\Omega '}k(x,y)\,\nu (\mathrm {d} y)=1} für alle x Ω {\displaystyle x\in \Omega } , dann wird durch
K ( x , A ) = A k ( x , y ) ν ( d y ) {\displaystyle K(x,A')=\int _{A'}k(x,y)\,\nu (\mathrm {d} y)}
eine Übergangswahrscheinlichkeit definiert. Hier ist also K ( x , ) {\displaystyle K(x,\;\cdot \;)} das Wahrscheinlichkeitsmaß auf ( Ω , A ) {\displaystyle (\Omega ',{\mathcal {A}}')} mit der ν {\displaystyle \nu } -Wahrscheinlichkeitsdichte k ( x , ) {\displaystyle k(x,\;\cdot \;)} .
  • Sei n N {\displaystyle n\in \mathbb {N} } fest und B n , p {\displaystyle B_{n,p}} die Binomialverteilung mit Parametern n {\displaystyle n} und p {\displaystyle p} , aufgefasst als Wahrscheinlichkeitsmaß auf Ω = { 0 , 1 , , n } {\displaystyle \Omega '=\{0,1,\dotsc ,n\}} . Dann wird durch
K ( p , A ) = B n , p ( A ) {\displaystyle K(p,A')=B_{n,p}(A')}
eine Übergangswahrscheinlichkeit von ( Ω , A ) = ( [ 0 , 1 ] , B ( [ 0 , 1 ] ) ) {\displaystyle (\Omega ,{\mathcal {A}})=([0,1],{\mathcal {B}}([0,1]))} nach ( Ω , P ( Ω ) ) {\displaystyle (\Omega ',{\mathcal {P}}(\Omega '))} definiert. Ist beispielsweise β a , b {\displaystyle \beta _{a,b}} eine Betaverteilung auf ( Ω , A ) {\displaystyle (\Omega ,{\mathcal {A}})} , dann ist β a , b K {\displaystyle \beta _{a,b}K} die zugehörige Beta-Binomialverteilung auf Ω {\displaystyle \Omega '} .

Darstellung als Daniell-stetige Abbildungen und Komposition

Jedem Markow-Kern K {\displaystyle K} von ( Ω , A ) {\displaystyle (\Omega ,{\mathcal {A}})} nach ( Ω , A ) {\displaystyle (\Omega ,{\mathcal {A}})} ist auf dem Raum E {\displaystyle E^{*}} der numerischen, nichtnegativen Funktionen f : Ω [ 0 , ] {\displaystyle f\colon \Omega \to [0,\infty ]} über

( T f ) ( ω ) := f ( ω ) K ( ω , d ω ) {\displaystyle (Tf)(\omega ):=\int f(\omega ')K(\omega ,\mathrm {d} \omega ')}

eine Abbildung T : E E {\displaystyle T\colon E^{*}\to E^{*}} mit folgenden Eigenschaften zugeordnet:

  1. f 0 T f 0 {\displaystyle f\geq 0\Rightarrow Tf\geq 0} für jedes f E {\displaystyle f\in E^{*}} (Positivität),
  2. f n f T f n T f {\displaystyle f_{n}\uparrow f\Rightarrow Tf_{n}\uparrow Tf} für jede monoton wachsende Folge ( f n ) {\displaystyle (f_{n})} in E {\displaystyle E^{*}} (Daniell-Stetigkeit, nach Percy John Daniell),
  3. T ( f + g ) = T f + T g {\displaystyle T(f+g)=Tf+Tg} (Additivität).

Zu jeder Abbildung T {\displaystyle T} mit diesen Eigenschaften gibt es wiederum genau einen Kern, für den T {\displaystyle T} die so gebildete Abbildung darstellt.

Aus der Komposition dieser Abbildungen T 1 T 2 {\displaystyle T_{1}\circ T_{2}} kann eine Definition für die Komposition der zugehörigen Kerne hergeleitet werden: Durch

K 1 K 2 ( ω , A ) = K 1 ( ω , d ω ) K 2 ( ω , A ) {\displaystyle K_{1}K_{2}(\omega ,A)=\int K_{1}(\omega ,\mathrm {d} \omega ')K_{2}(\omega ',A)}

ist ein stochastischer Kern von ( Ω , A ) {\displaystyle (\Omega ,{\mathcal {A}})} nach ( Ω , A ) {\displaystyle (\Omega ,{\mathcal {A}})} definiert, der als Komposition von K 1 {\displaystyle K_{1}} und K 2 {\displaystyle K_{2}} bezeichnet wird. Im diskreten Fall entspricht K 1 K 2 {\displaystyle K_{1}K_{2}} der Multiplikation der beiden Übergangsmatrizen.

Spezielle Anwendungen

Markow-Kerne finden breite Anwendung bei der Modellbildung etwa unter Zuhilfenahme von Markow- und Hidden-Markow-Modellen. In der Quantenphysik werden oft Übergangswahrscheinlichkeiten zwischen quantenmechanischen Zuständen untersucht. Außerdem werden Markow-Kerne in der mathematischen Statistik verwendet, um im Rahmen eines allgemeinen statistischen Entscheidungsproblems eine Entscheidungsfunktion zu definieren, die jedem Ausgang eines Experiments eine Entscheidung zuordnet. Dabei kann die Entscheidung sowohl eine Parameterschätzung als auch die Wahl eines Konfidenzintervalls oder die Entscheidung für oder gegen eine Hypothese sein.

Literatur

  • Achim Klenke: Wahrscheinlichkeitstheorie. 3. Auflage. Springer-Verlag, Berlin Heidelberg 2013, ISBN 978-3-642-36017-6, doi:10.1007/978-3-642-36018-3. 
  • Heinz Bauer: Wahrscheinlichkeitstheorie. De Gruyter, Berlin 2002, ISBN 3-11-017236-4.
  • Erhan Çınlar: Probability and Stochastics. Springer, New York u. a. 2011, ISBN 978-0-387-87858-4.