Multiples Testen

Multiples Testen bezeichnet Verfahren der statistischen Testtheorie, bei denen mehrere statistische Tests simultan durchgeführt werden.

Überblick über Verfahren des multiplen Testens

Unter dem Begriff multiples Testen werden verschiedene Verfahren zusammengefasst, bei denen eine – in der Regel endliche – Anzahl von statistischen Tests simultan durchgeführt wird. Es können drei Gruppen unterschieden werden, die das Konzept des Fehlers 1. Art, das ist die fälschliche Ablehnung einer Nullhypothese, auf unterschiedliche Art für mehrere Test verallgemeinern. Wenn mindestens eine Nullhypothese fälschlich abgelehnt wird, liegt ein multipler Fehler 1. Art vor.

Multiple Tests mit vorgegebenem globalem Signifikanzniveau

Für eine Familie von Nullhypothesen wird die Wahrscheinlichkeit, dass mindestens eine Nullhypothese abgelehnt wird, falls alle Nullhypothesen richtig sind, kontrolliert, d. h. durch ein vorgegebenes Signifikanzniveau α ( 0 , 1 ) {\displaystyle \alpha \in (0,1)} nach oben beschränkt. In diesem Fall heißt das Signifikanzniveau globales Signifikanzniveau. Diese erste Gruppe von Verfahren testet mit Hilfe der Einzeltests eine Globalhypothese, die als Durchschnitt der einzelnen Nullhypothesen definiert ist.

Multiple Tests mit vorgegebenem multiplem Signifikanzniveau

Bei dieser Gruppe multipler Testverfahren wird für eine Familie von Nullhypothesen die Wahrscheinlichkeit, dass mindestens eine Nullhypothese fälschlich abgelehnt wird, kontrolliert, d. h. durch ein Signifikanzniveau α ( 0 , 1 ) {\displaystyle \alpha \in (0,1)} , das dann multiples Signifikanzniveau heißt, nach oben beschränkt.

Multiple Tests mit Beschränkung der erwarteten Fehlerquote der Ablehnungen

Bei dieser Gruppe von Testverfahren wird die erwartete Fehlerquote der Ablehnungen (englisch: false discovery rate, FDR), das ist der erwartete Anteil fälschlicher Ablehnungen von Nullhypothesen unter allen abgelehnten Nullhypothesen, kontrolliert.[1][2]

Grundbegriffe

Gegeben sei eine Familie von k {\displaystyle k} Test mit den Nullhypothesen H j : θ Θ j {\displaystyle H_{j}:\theta \in \Theta _{j}} für j = 1 , , k {\displaystyle j=1,\ldots ,k} , wobei Θ j Θ {\displaystyle \emptyset \neq \Theta _{j}\subset \Theta } für j = 1 , , k {\displaystyle j=1,\ldots ,k} gilt. Die entsprechenden Gegenhypothesen sind K j : θ Θ Θ j {\displaystyle K_{j}:\theta \in \Theta \setminus \Theta _{j}} für j = 1 , , k {\displaystyle j=1,\ldots ,k} . Eine simultane Durchführung der k {\displaystyle k} Tests wird multipler Test genannt.

Multipler Fehler 1. Art

Bei der Durchführung eines multiplen Tests sind mehrere Testergebnisse möglich: es wird keine Nullhypothese abgelehnt oder es wird mindestens eine der Nullhypothesen abgelehnt. Im Extremfall werden alle Nullhypothesen abgelehnt. Die übliche Verallgemeinerung des Konzeptes der Fehlerwahrscheinlichkeit 1. Art für einen einzelnen Test auf multiple Tests ist der multiple Fehler 1. Art, der begangen wird, wenn bei mindestens einem Einzeltest eine Nullhypothese fälschlich abgelehnt wird.

Definition: Für einen simultanen Test mehrerer Nullhypothesen heißt das Testergebnis „Mindestens eine Nullhypothese wird fälschlich abgelehnt“ multipler Fehler 1. Art.[3]

Multiple Fehlerwahrscheinlichkeit 1. Art

Definition: Für einen simultanen Test mehrerer Nullhypothesen heißt die Wahrscheinlichkeit, dass ein multipler Fehler 1. Art begangen wird, multiple Fehlerwahrscheinlichkeit 1. Art (engl.: family-wise error rate, FWER)[4] oder versuchsbezogene Irrtumswahrscheinlichkeit[5] (engl.: experimentwise error rate).

Multipler Test zum lokalen Signifikanzniveau

Das einfachste Vorgehen beim multiplen Testen ist, jeden Einzeltest mit demselben vorgegebenen Signifikanzniveau durchzuführen, so dass bei jedem Einzeltest die Fehlerwahrscheinlichkeit 1. Art nach oben beschränkt ist.

Definition: Ein multipler Test, bei dem jeder Einzeltest das Signifikanzniveau α ( 0 , 1 ) {\displaystyle \alpha \in (0,1)} einhält, für den also

P θ ( { H j  wird abgelehnt } ) α für alle  θ Θ j  und jedes  j = 1 , , k {\displaystyle P_{\theta }(\{H_{j}{\text{ wird abgelehnt}}\})\leq \alpha \quad {\text{für alle }}\theta \in \Theta _{j}{\text{ und jedes }}j=1,\dots ,k}

gilt, heißt multipler Test zum lokalen Signifikanzniveau α ( 0 , 1 ) {\displaystyle \alpha \in (0,1)} .

Ein multipler Test zum lokalen Signifikanzniveau α {\displaystyle \alpha } kontrolliert zwar die Fehlerwahrscheinlichkeiten 1. Art für jeden Einzeltests, da diese durch α {\displaystyle \alpha } nach oben beschränkt werden. Die Wahrscheinlichkeit für die fälschliche Ablehnung einer oder mehrerer der Nullhypothese beim simultanen Testen wird aber nur teilweise kontrolliert. Für einen multiplen Test zum lokalen Signifikanzniveau α {\displaystyle \alpha } sind die Wahrscheinlichkeiten F W E R θ {\displaystyle \mathrm {FWER} _{\theta }} nicht durch α {\displaystyle \alpha } nach oben beschränkt. Es gilt[6] lediglich die Ungleichung

F W E R θ min { k α , 1 }  für  θ Θ , {\displaystyle \mathrm {FWER} _{\theta }\leq \min\{k\cdot \alpha ,1\}\quad {\text{ für }}\theta \in \Theta \;,}

die aber für größere k {\displaystyle k} nicht zu einer praktikablen Beschränkung führt. Z. B. für α = 0 , 05 {\displaystyle \alpha =0{,}05} wird für k 20 {\displaystyle k\geq 20} für die obere Schranke der Wert Eins erreicht. Diese Problematik wird auch mit dem Begriff Alphafehler-Kumulierung bezeichnet und motiviert Verfahren zur Kontrolle des multiplen Fehlers 1. Art.

Multiple Tests zu vorgegebenem globalem Signifikanzniveau

Test einer Durchschnittshypothese

Zu einer Familie von k {\displaystyle k} Nullhypothesen H 1 : θ Θ 1 , , H k Θ k {\displaystyle H_{1}:\theta \in \Theta _{1},\ldots ,H_{k}\in \Theta _{k}} mit Θ j Θ {\displaystyle \Theta _{j}\subset \Theta } für j = 1 , , k {\displaystyle j=1,\ldots ,k} sei

Θ 0 := j = 1 k Θ j {\displaystyle \Theta _{0}:=\bigcap _{j=1}^{k}\Theta _{j}}

eine nicht-leere Teilmenge von Θ {\displaystyle \Theta } . Dann heißt die Durchschnittshypothese

H 0 : θ Θ 0 {\displaystyle H_{0}:\theta \in \Theta _{0}}

Globalhypothese und die einzelnen Nullhypothesen heißen in diesem Zusammenhang Elementarhypothesen.[7] Die Globalhypothese H 0 {\displaystyle H_{0}} ist falsch, wenn mindestens eine der Hypothesen H 1 , , H k {\displaystyle H_{1},\ldots ,H_{k}} falsch ist. Ein Test der Globalhypothese kann daher durch k {\displaystyle k} simultane Tests der Elementarhypothesen erfolgen, wobei H 0 {\displaystyle H_{0}} abgelehnt wird, falls mindestens eine der Hypothesen H 1 , , H k {\displaystyle H_{1},\ldots ,H_{k}} abgelehnt wird.

Definition: Ein simultaner Test der k {\displaystyle k} Nullhypothesen H 1 : θ Θ 1 , , H k : θ Θ k {\displaystyle H_{1}:\theta \in \Theta _{1},\ldots ,H_{k}:\theta \in \Theta _{k}} mit Θ 0 = Θ 1 Θ k {\displaystyle \Theta _{0}=\Theta _{1}\cap \dots \cap \Theta _{k}\neq \emptyset } , der zu einem vorgegebenen Signifikanzniveau α ( 0 , 1 ) {\displaystyle \alpha \in (0,1)} die Eigenschaft

F W E R θ α  für alle  θ Θ 0 {\displaystyle \mathrm {FWER} _{\theta }\leq \alpha \quad {\text{ für alle }}\theta \in \Theta _{0}}

hat, heißt multipler Test zum globalen Signifikanzniveau α.[8]

Konstruktionsverfahren

Einen multiplen Test zum globalen Signifikanzniveau α {\displaystyle \alpha } erhält man regelmäßig nicht dadurch, dass man die einzelnen Tests jeweils zum Niveau α {\displaystyle \alpha } durchführt, das es dann zur Alphafehler-Kumulierung kommt, die im Extremfall dazu führt, dass das globale Niveau den Wert min { 1 , k α } {\displaystyle \min\{1,k\cdot \alpha \}} hat.

Das Problem der Alphafehler-Kumulierung hat eine allgemeine Lösung in Form der Bonferroni-Korrektur, die für die Durchführung des einzelnen Tests das Niveau α l o k a l = α / k {\displaystyle \alpha _{\mathrm {lokal} }=\alpha /k} vorschreibt, wodurch das globale Niveau α {\displaystyle \alpha } garantiert ist.

Unter bestimmten Voraussetzungen Situationen kann die Šidák-Korrektur angewendet werden, die zu einer Verbesserung gegenüber der Bonferroni-Korrektur führt, da das lokale Signifikanzniveau der Einzeltests weniger stark abgesenkt werden muss. Eine Voraussetzung ist die stochastische Unabhängigkeit der Tests, womit gemeint ist, dass die Teststatistiken der einzelnen Tests stochastisch unabhängig sind. Eine alternative Voraussetzung ist, dass die Teststatistiken eine gemeinsame multivariate Normalverteilung besitzen und die Abnahmebereiche Intervalle sind, die symmetrisch zum jeweiligen Erwartungswert sind.

Für einen multiplen Test zum globalen Niveau α ist die multiplen Fehlerwahrscheinlichkeit 1. Art für die Familie von Elementarhypothesen identisch mit der Fehlerwahrscheinlichkeit 1. Art des Tests der Globalhypothese, es gilt also

P θ ( { H 0  wird abgelehnt } ) = F W E R θ für alle  θ Θ 0 . {\displaystyle P_{\theta }(\{H_{0}{\text{ wird abgelehnt}}\})=\mathrm {FWER} _{\theta }\quad {\text{für alle }}\theta \in \Theta _{0}\,.}

In Spezialfällen ist das Testen der Durchschnittshypothese auch ohne Verwendung der Einzeltests möglich. Beispiele sind Tests über einen Parametervektor, z. B. das Testen der allgemeinen linearen Hypothese im multiplen linearen Regressionsmodell, die mit einer Teststatistik durchgeführt werden. Diesen Fall bezeichnet man im engeren Sinn nicht als multiples Testen, da es sich um einen Test für die Hypothese eines Parametervektors handelt, er wird allerdings dem Bereich der simultanen Inferenzverfahren zugeordnet.

Schwache und starke Kontrolle der multiplen Fehlerwahrscheinlichkeit 1. Art

Die Reduktion des Test einer Familie von Hypothesen H 1 , , H k {\displaystyle H_{1},\dots ,H_{k}} auf den Test der Globalhypothese H 0 {\displaystyle H_{0}} mit Hilfe einzelner Tests ist eine mögliche Fragestellung, aber nicht die einzige und typische Behandlungsmöglichkeit multipler Tests.[9] Durch die Vorgabe eines globalen Signifikanzniveaus wird die multiple Fehlerwahrscheinlichkeit 1. Art nur eingeschränkt kontrolliert, da die Ungleichung F W E R θ α {\displaystyle \mathrm {FWER} _{\theta }\leq \alpha } nur für alle θ Θ 0 {\displaystyle \theta \in \Theta _{0}} gilt, man spricht daher auch von einer schwachen Kontrolle der multiplen Fehlerwahrscheinlichkeit 1. Art. Im Unterschied dazu liegt eine starke Kontrolle der multiplen Fehlerwahrscheinlichkeit 1. Art vor, falls

F W E R θ α  für alle  θ Θ {\displaystyle \mathrm {FWER} _{\theta }\leq \alpha \quad {\text{ für alle }}\theta \in \Theta }

gilt. Für multiple Tests, bei denen die Globalhypothese nicht von eigenständigem Interesse ist, ist die schwache Kontrolle der multiplen Fehlerwahrscheinlichkeit 1. Art wenig sinnvoll. „Weak control is typically not very meaningful, and so when we refer to control of the FWER, we mean strong control.“[10]

Multiple Tests zu vorgegebenem multiplem Signifikanzniveau

Gegeben sei eine Familie von k {\displaystyle k} Test mit den Nullhypothesen H j : θ Θ j {\displaystyle H_{j}:\theta \in \Theta _{j}} für j = 1 , , k {\displaystyle j=1,\ldots ,k} , wobei Θ j Θ {\displaystyle \emptyset \neq \Theta _{j}\subset \Theta } für j = 1 , , k {\displaystyle j=1,\ldots ,k} gilt.

Wie oben definiert liegt ein multipler Fehler 1. Art vor, wenn mindestens ein Nullhypothese fälschlich verworfen wird. Wenn die multiple Fehlerwahrscheinlichkeit für alle θ Θ {\displaystyle \theta \in \Theta } kontrolliert, d. h. durch eine vorgegebenes Signifikanzniveau nach oben beschränkt wird, nennt man dieses ein multiples Signifikanzniveau.

Definition: Ein simultaner Test der Nullhypothesen H 1 : θ Θ 1 , , H k Θ k {\displaystyle H_{1}:\theta \in \Theta _{1},\ldots ,H_{k}\in \Theta _{k}} mit der Eigenschaft

F W E R θ α für alle  θ Θ {\displaystyle \mathrm {FWER} _{\theta }\leq \alpha \quad {\text{für alle }}\theta \in \Theta }

heißt multipler Test zum multiplen Signifikanzniveau α.[11]

Der entscheidende Unterschied zu einem Test zum globalen Niveau ist, das die Wahrscheinlichkeit fälschlicher Ablehnungen nicht nur für θ Θ 0 {\displaystyle \theta \in \Theta _{0}} , sondern für alle θ Θ {\displaystyle \theta \in \Theta } kontrolliert wird, wobei die fälschliche Ablehnung einer Nullhypothese nur für θ j = 1 k Θ j Θ {\displaystyle \theta \in \bigcup _{j=1}^{k}\Theta _{j}\subseteq \Theta } möglich ist, da in Θ j = 1 k Θ j {\displaystyle \Theta \setminus \bigcup _{j=1}^{k}\Theta _{j}} alle Nullhypothesen falsch sind.

Verfahren zur starken Kontrolle der multiplen Fehlerwahrscheinlichkeit 1. Art

Eine allgemeine Methode, um einen multiplen Test zum multiplen Signifikanzniveau α {\displaystyle \alpha } zu erhalten, ist das Bonferroni-Verfahren, das darin besteht, für die Einzeltests die adjustierten Signifikanzniveaus α / k {\displaystyle \alpha /k} vorzugeben. Mit diesem Vorgehen ist eine starke Kontrolle der multiplen Fehlerwahrscheinlichkeit 1. Art gewährleistet.[12][13][14] Es gibt zahlreiche Modifikationen und Verfeinerungen für bestimmte Anwendungsfälle oder für den Fall, dass bestimmte zusätzliche Voraussetzungen erfüllt sind.

Für stochastisch unabhängige Tests verlangt die Šidák-Korrektur die adjustierten Signifikanzniveaus 1 ( 1 α ) 1 / k {\displaystyle 1-(1-\alpha )^{1/k}} , um die starke Kontrolle der multiplen Fehlerwahrscheinlichkeit 1. Art zu gewährleisten.[15]

Das Holm-Verfahren oder Bonferroni-Holm-Verfahren ist eine schrittweise Prozedur, die bei den einzelnen Schritten unterschiedliche Signifikanzniveaus verwendet.[16][17] Unter der stark einschränkenden Voraussetzung der stochastischen Unabhängigkeit der Teststatistiken ergibt sich mit dem Simes-Hochberg-Verfahren.[18][19] eine Verbesserung des Bonferroni-Holm-Verfahrens.[20]

Multiple Tests mit Beschränkung der erwarteten Fehlerquote der Ablehnungen

Eine alternative Idee das Konzept der Fehlerwahrscheinlichkeit 1. Art für einen einzelnen Test auf multiple Tests zu übertragen, den erwarteten Anteil fälschlich abgelehnter Nullhypothesen unter allen abgelehnten Nullhypothesen zu kontrollieren.[21][22]

Zu einem fixierten multiplen Test mit vorgegebenem Signifikanzniveau α {\displaystyle \alpha } und einem Parameter θ Θ {\displaystyle \theta \in \Theta } bezeichne R ( θ ) {\displaystyle R(\theta )} die zufällige Anzahl abgelehnter Nullhypothesen und V ( θ ) {\displaystyle V(\theta )} die zufällige Anzahl fälschlich abgelehnter Nullhypothesen.[23] Die Zufallsvariablen R ( θ ) {\displaystyle R(\theta )} und V ( θ ) {\displaystyle V(\theta )} nehmen Werte in einer Teilmenge von { 0 , 1 , , k } {\displaystyle \{0,1,\dots ,k\}} an, wobei

0 V ( θ ) R ( θ ) k {\displaystyle 0\leq V(\theta )\leq R(\theta )\leq k}

gilt und daher aus R ( θ ) = 0 {\displaystyle R(\theta )=0} auch V ( θ ) = 0 {\displaystyle V(\theta )=0} folgt. Falls für den betrachteten Parameter alle Hypothesen richtig sind, kann R ( θ ) {\displaystyle R(\theta )} alle Werte in { 0 , 1 , , k } {\displaystyle \{0,1,\dots ,k\}} annehmen, falls für den betrachteten Parameter alle Nullhypothesen falsch sind, gilt R ( θ ) = V ( θ ) = 0 {\displaystyle R(\theta )=V(\theta )=0} .

Fehlerquote der Ablehnungen

Zu einem bestimmten θ {\displaystyle \theta } bezeichnet die Zufallsvariable

F D P θ = { V ( θ ) R ( θ ) , falls  R ( θ ) > 0 0 , falls  R ( θ ) = 0 {\displaystyle \mathrm {FDP} _{\theta }={\begin{cases}{\frac {V(\theta )}{R(\theta )}},&{\text{falls }}R(\theta )>0\\0,&{\text{falls }}R(\theta )=0\end{cases}}}

die zufällige Fehlerquote der Ablehnungen (englisch: false discovery proportion, FDP).[24] Die Fehlerquote der Ablehnungen ist der Anteil der fälschlich abgelehnten Nullhypothesen an allen abgelehnten Nullhypothesen. Die Zufallsvariable F D P θ {\displaystyle \mathrm {FDP} _{\theta }} hat eine diskrete Wahrscheinlichkeitsverteilung mit Werten in einer Teilmenge der Menge { 0 , 1 / k , , ( k 1 ) / k , 1 } {\displaystyle \{0,1/k,\dots ,(k-1)/k,1\}} .

Erwartete Fehlerquote der Ablehnungen

Hauptartikel: Falscherkennungsrate

Der Erwartungswert der Zufallsvariablen F D P θ {\displaystyle \mathrm {FDP} _{\theta }} ,

F D R θ = E θ ( F D P θ ) , {\displaystyle \mathrm {FDR} _{\theta }=E_{\theta }(\mathrm {FDP} _{\theta }),}

ist die erwartete Fehlerquote der Ablehnungen (englisch: false discovery rate, FDR).[25]

Die erwartete Fehlerquote der Ablehnungen ist im Fall k = 1 {\displaystyle k=1} die Wahrscheinlichkeit, die einzige Nullhypothese fälschlich abzulehnen, und damit die Fehlerwahrscheinlichkeit 1. Art. Somit ist die erwartete Fehlerquote der Ablehnungen eine Verallgemeinerung des Konzeptes der Fehlerwahrscheinlichkeit 1. Art für multiple Test.

Die erwartete Fehlerquote der Ablehnungen ist durch die multiple Fehlerwahrscheinlichkeit 1. Art nach oben beschränkt, es gilt also

F D R θ F W E R θ für alle  θ Θ , {\displaystyle \mathrm {FDR} _{\theta }\leq \mathrm {FWER} _{\theta }\quad {\text{für alle }}\theta \in \Theta \;,}

wobei im Allgemeinen das strikte Ungleichheitszeichen gilt.[26] Die Anforderungen für eine Kontrolle von F D R θ {\displaystyle \mathrm {FDR} _{\theta }} durch eine Oberschranke sind also im Allgemeinen schwächer als die für die Kontrolle der multiplen Fehlerwahrscheinlichkeit 1. Art. Die Kontrolle der multiplen Fehlerwahrscheinlichkeit erster Art durch ein vorgegebenes Niveau α {\displaystyle \alpha } impliziert also die Kontrolle der erwarteten Fehlerquote der Ablehnungen.

Verfahren zur Kontrolle der erwarteten Fehlerquote der Ablehnungen

Eine Methode zur Kontrolle der erwarteten Fehlerquote der Ablehnungen ist das Benjamini-Hochberg-Verfahren[27][28], das allerdings die stochastische Unabhängigkeit der p-Werte voraussetzt. Das Benjamini-Yekutieli-Verfahren[29] ist eine Verallgemeinerung für eine bestimmte Art der positiven Abhängigkeit, die den Fall der stochastischen Unabhängigkeit als Grenzfall enthält.[30]

Güteeigenschaften multipler Tests

Typischerweise ist ein Hauptkriterium statistischer Tests die Beschränkung der Fehlerwahrscheinlichkeit 1. Art. Bei multiplen Tests ergeben sich spezielle Gütekriterien aus der Eigenschaft, dass die betrachteten Nullhypothesen geschachtelt sein können, also z. B. Θ 1 Θ 2 {\displaystyle \Theta _{1}\subset \Theta _{2}} gilt.

Kohärenz

Die Kohärenz[31] eines multiplen Tests verlangt, dass im Fall Θ 1 Θ 2 {\displaystyle \Theta _{1}\subset \Theta _{2}} aus der Ablehnung von H 2 : θ Θ 2 {\displaystyle H_{2}:\theta \in \Theta _{2}} auch die Ablehnung von H 1 : θ Θ 1 {\displaystyle H_{1}:\theta \in \Theta _{1}} folgt. „Diese Eigenschaft ist aus logischen Gründen für einen multiplen Test unverzichtbar“[31]. Beispielsweise darf bei einem simultanen Vergleich von drei Mittelwerten μ 1 , μ 2 , μ 3 {\displaystyle \mu _{1},\mu _{2},\mu _{3}} nicht die Nullhypothese H 12 : μ 1 = μ 2 {\displaystyle H_{12}:\mu _{1}=\mu _{2}} abgelehnt werden, aber gleichzeitig die Nullhypothese H 123 : μ 1 = μ 2 = μ 3 {\displaystyle H_{123}:\mu _{1}=\mu _{2}=\mu _{3}} nicht abgelehnt werden.

Konsonanz

Die Konsonanz[31] eines multiplen Test bedeutet im Fall einer Familie von drei Hypothesen mit Θ 1 Θ 3 {\displaystyle \Theta _{1}\subset \Theta _{3}} und Θ 2 Θ 3 {\displaystyle \Theta _{2}\subset \Theta _{3}} , dass dann, wenn H 3 : θ Θ 3 {\displaystyle H_{3}:\theta \in \Theta _{3}} abgelehnt wird, auch mindestens eine der stärkeren Hypothesen H 1 : θ Θ 1 {\displaystyle H_{1}:\theta \in \Theta _{1}} und H 2 : θ Θ 2 {\displaystyle H_{2}:\theta \in \Theta _{2}} abgelehnt wird. „Diese Eigenschaft ist für einen multiplen Test nur wünschenswert, aber nicht unbedingt erforderlich.“[31]

Beispielsweise sollte bei einem simultanen Vergleich von drei Mittelwerten μ 1 , μ 2 , μ 3 {\displaystyle \mu _{1},\mu _{2},\mu _{3}} nicht die Konstellation eintreten, dass die Nullhypothese H 123 : μ 1 = μ 2 = μ 3 {\displaystyle H_{123}:\mu _{1}=\mu _{2}=\mu _{3}} abgelehnt wird, H 12 : μ 1 = μ 2 {\displaystyle H_{12}:\mu _{1}=\mu _{2}} abgelehnt werden, aber gleichzeitig die drei Nullhypothesen μ 1 = μ 2 {\displaystyle \mu _{1}=\mu _{2}} , μ 1 = μ 3 {\displaystyle \mu _{1}=\mu _{3}} und μ 2 = μ 3 {\displaystyle \mu _{2}=\mu _{3}} nicht abgelehnt werden.

Abgeschlossenheit

Für bestimmte mehrstufige Testverfahren ist es wichtig, dass die Familie der Hypothesen eine gewisse Abgeschlossenheit hat, diese bedeutet z. B., dass dann, wenn für zwei Hypothesen H 1 : θ Θ 1 {\displaystyle H_{1}:\theta \in \Theta _{1}} und H 2 : θ Θ 2 {\displaystyle H_{2}:\theta \in \Theta _{2}} die Menge Θ 1 Θ 2 {\displaystyle \Theta _{1}\cap \Theta _{2}} nicht-leer ist, auch die Hypothese H : θ Θ 1 Θ 2 {\displaystyle H:\theta \in \Theta _{1}\cap \Theta _{2}} in der Hypothesenfamilie enthalten ist.[31]

Trennschärfe

Es gibt Verallgemeinerungen des Konzeptes der Fehlerwahrscheinlichkeit 2. Art und damit der Konzepte der Trennschärfe oder Macht eines Tests für multiple Tests.[32]

Verschiedene Arten multipler Testung

Es gibt verschiedene Arten der multiplen Testung, die sich in der Formulierung der Nullhypothese unterscheiden[33].

Manchmal ist ein multiples Testproblem mit einer abweichenden Notation für die Hypothesen zu finden[34], die beim Vergleich mit der obigen Notation leicht zu Irritationen führt. Es werden dann die k {\displaystyle k} Alternativhypothesen mit H 1 , H 2 , , H k {\displaystyle H_{1},H_{2},\ldots ,H_{k}} bezeichnet und mit H 0 {\displaystyle H_{0}} wird die simultane Verneinung aller Alternativhypothesen H 1 , H 2 , , H k {\displaystyle H_{1},H_{2},\ldots ,H_{k}} bezeichnet. Beim so definierten multiplen Test ist H 0 {\displaystyle H_{0}} richtig, wenn alle H i {\displaystyle H_{i}} falsch sind, und ist H 0 {\displaystyle H_{0}} falsch, wenn mindestens eine der Hypothesen H i {\displaystyle H_{i}} richtig ist.

Literatur

  • Ralf Bender, St. Lange, A. Ziegler: Multiples Testen. Artikel Nr. 12 der Statistik-Serie in DMW. In: Deutsche Medizinische Wochenschrift. Band 127, 2002, S. T4–T7 (thieme-connect.de [PDF]). 
  • Jason C. Hsu: Multiple Comparisons – Theory and Methods. Chapman and Hall, London 1996, ISBN 0-412-98281-1, doi:10.1201/b15074 (E-Book-ISBN 978-0-429-17087-4). 
  • Thorsten Dickhaus: Multiples Testen – Skript zur Lehrveranstaltung. Hrsg.: Universität Bremen, Institut für Statistik. Bremen 2022 (uni-bremen.de [PDF; abgerufen am 11. Januar 2023] Version: 8. April 2022). 
  • Alexei Dimitrenko, Jason C. Hsu: Multiple Testing in Clinical Trials. In: Samuel Kotz et al. (Hrsg.): Encyclopedia of Statistical Sciences. 2. Auflage. Wiley, New York 2006, ISBN 0-471-15044-4, S. 5111–5117, doi:10.1002/0471667196. 
  • E. L. Lehmann, Joseph P. Romano: Testing Statistical Hypothesis. 4. Auflage. Springer, Cham 2022, ISBN 978-3-03070577-0, Chapter 9: Multiple Testing and Simultaneous Inference, doi:10.1007/978-3-030-70578-7 (E-Book-ISBN 978-3-030-70578-7). 
  • Bernhard Rüger: Test- und Schätztheorie, Band II: Statistische Tests. Oldenbourg, München 2002, ISBN 3-486-25130-9, Abschnitt 3.3.7: Multiple Testverfahren. 
  • Xinping Ciu, Thorsten Dickhaus, Ying Ding, Jason C. Hsu (Hrsg.): Handbook of Multiple Comparisons. Chapman and Hall/CRC, Boca Raton 2021, ISBN 978-0-367-14067-0, doi:10.1201/9780429030888 (E-Book-ISBN 978-0-429-03088-8). 

Einzelnachweise und Anmerkungen

  1. Thorsten Dickhaus: Multiples Testen. 2022, Kap. 5. 
  2. E. L. Lehmann, Joseph P. Romano: Testing Statistical Hypothesis. 2022, Abschnitt 9.3.2, S. 434ff. 
  3. Thorsten Dickhaus: Multiples Testen. 2022, Def. 12.1, S. 12. 
  4. Der englische Begriff family-wise error rate für die multiple Fehlerwahrscheinlichkeit 1. Art hat keine direkt entsprechende deutsche Übersetzung gefunden. Insbesondere wäre eine wörtliche Übersetzung irreführend, da im Deutschen 'Rate' im Allgemeinen eine zeitlichen Bezug hat und nicht für eine Wahrscheinlichkeit benutzt wird.
  5. Ralf Bender, St. Lange, A. Ziegler: Multiples Testen. Artikel Nr. 12 der Statistik-Serie in DMW. In: Deutsche Medizinische Wochenschrift. Band 127, 2002, S. T4–T7 (thieme-connect.de [PDF]). 
  6. I θ {\displaystyle I_{\theta }} bezeichne für jedes θ Θ {\displaystyle \theta \in \Theta } die Menge der wahren Nullhypothesen und A j {\displaystyle A_{j}} bezeichne das Ereignis „ H j {\displaystyle H_{j}} wird abgelehnt“. Dann ist j I θ A j {\displaystyle \bigcup _{j\in I_{\theta }}A_{j}} das Ereignis, dass mindestens eine Nullhypothese fälschlich abgelehnt wird. Es gilt
    F W E R θ = P θ ( j I θ A j ) j I θ k P θ ( A j ) | I θ | α k α für alle  θ Θ . {\displaystyle \mathrm {FWER} _{\theta }=P_{\theta }\left(\bigcup _{j\in I_{\theta }}A_{j}\right)\leq \sum _{j\in I_{\theta }}^{k}P_{\theta }(A_{j})\leq |I_{\theta }|\cdot \alpha \leq k\cdot \alpha \quad {\text{für alle }}\theta \in \Theta \;.}
  7. Thorsten Dickhaus: Multiples Testen. 2022, S. 7. 
  8. Thorsten Dickhaus: Multiples Testen. 2022, Def. 12.1, S. 11. 
  9. Thorsten Dickhaus: Multiples Testen. 2022, S. 11-12. 
  10. E. L. Lehmann, Joseph P. Romano: Testing Statistical Hypothesis. 2022, S. 407. 
  11. Thorsten Dickhaus: Multiples Testen. 2022, Def. 12.1, S. 12. 
  12. E. L. Lehmann, Joseph P. Romano: Testing Statistical Hypothesis. 2022, Theorem 9.1.1, S. 408. 
  13. Bernhard Rüger: Test- und Schätztheorie, Band II: Statistische Tests. 2002, S. 3.33. 
  14. Thorsten Dickhaus: Multiples Testen. 2022, Beispiel 1.24, S. 13. 
  15. Thorsten Dickhaus: Multiples Testen. 2022, Beispiel 1.25, S. 13. 
  16. E. L. Lehmann, Joseph P. Romano: Testing Statistical Hypothesis. 2022, Theorem 9.1.2, S. 418. 
  17. Bernhard Rüger: Test- und Schätztheorie, Band II: Statistische Tests. 2002, S. 337. 
  18. R. J. Simes: An improved Bonferroni procedure for multiple test of significance. In: Biometrika. Band 73, 1986, S. 751–754. 
  19. Yosef Hochberg: A sharper Bonferroni procedure for multiple test of significance. In: Biometrika. Band 75, 1988, S. 800–802. 
  20. Bernhard Rüger: Test- und Schätztheorie, Band II: Statistische Tests. 2002, S. 339. 
  21. Thorsten Dickhaus: Multiples Testen. 2022, Kap. 5. 
  22. E. L. Lehmann, Joseph P. Romano: Testing Statistical Hypothesis. 2022, Abschnitt 9.3.2, S. 434ff. 
  23. Thorsten Dickhaus: Multiples Testen. 2022, S. 17. 
  24. Thorsten Dickhaus: Multiples Testen. 2022, Def. 135, S. 19. 
  25. Thorsten Dickhaus: Multiples Testen. 2022, S. 19. 
  26. Thorsten Dickhaus: Multiples Testen. 2022, Lemma 5.2, S. 61. 
  27. E. L. Lehmann, Joseph P. Romano: Testing Statistical Hypothesis. 2022, Theorem 9.3.1, S. 435. 
  28. Yoav Benjamini, Yosef Hochberg: Controlling the false discovery rate: a practical and powerful approach to multiple testing. In: Journal of the Royal Statistical Society Series B. Band 57, 1995, S. 289–300 (tau.ac.il [PDF]). 
  29. Yoav Benjamini, D. Yekutieli: The control of the false discovery rate in multiple testing under dependency. In: Annals of Statistics. Band 28, 2001, S. 1165–1189. 
  30. E. L. Lehmann, Joseph P. Romano: Testing Statistical Hypothesis. 2022, Theorem 9.3.2, S. 437. 
  31. a b c d e Bernhard Rüger: Test- und Schätztheorie, Band II: Statistische Tests. 2002, S. 327. 
  32. Thorsten Dickhaus: Multiples Testen. 2022, S. 19. 
  33. When to adjust alpha during multiple testing: A consideration of disjunction, conjunction, and individual testing https://arxiv.org/abs/2107.02947
  34. Eric W. Weisstein: Bonferroni Correction. In: MathWorld (englisch).