Kwantiel

In de statistiek is een kwantiel een getal dat een multiset van getallen verdeelt in twee delen: het deel met de kleinere en het deel met de grotere getallen. De verzameling kan een concrete of abstracte populatie zijn of de uitkomsten van een steekproef. Voor het getal $0<p<1$ , en een verzameling met omvang $T$ , verdeelt het $p$ -kwantiel de verzameling in een deel met de kleinere waarden met omvang $p\cdot T$ en een deel met de grotere waarden met omvang $(1-p)\cdot T$ . Een bekend kwantiel is de mediaan, het 0,5-kwantiel, dat het midden is van de rij van in volgorde van grootte geplaatste getallen.

Spraakgebruik

De specifiekere termen percentiel, deciel en kwartiel worden in de praktijk ook gebruikt voor de betreffende delen van de dataset. Bij een verdeling in tien delen bijvoorbeeld zijn er negen deelpunten, de decielen $d_{1},\ldots ,d_{9}$ , maar worden de tien delen ook wel aangeduid als decielen. Het eerste deciel bestaat dan uit de 10% van de populatie die volgens de gekozen ordening de kleinste zijn, de volgende 10% kleinsten vormen het tweede deciel en er is een tiende deciel van de 10% grootste. De genoemde percentages kunnen niet altijd exact gerealiseerd worden, maar worden zo goed mogelijk benaderd. Daarbij is het gebruik het minimum als ondergrens en het maximum als bovengrens te nemen. Deze worden dan officieus als $d_{0}$ en $d_{10}$ aangeduid.

Meerdere variabelen

Bij een dataset met meerdere variabelen met waarden in een geordende verzameling (zoals getallen) kan een populatie met betrekking tot verschillende variabelen geordend worden. Voor bijvoorbeeld een dataset met de inkomens en vermogens van huishoudens kan gekeken worden naar het gemiddelde inkomen per inkomensdeciel en het gemiddelde vermogen per vermogensdeciel. Voor de samenhang tussen beide variabelen kan ook naar het gemiddelde vermogen per inkomensdeciel gekeken worden.^[1]

Definitie

Voor een ordinaal kenmerk $X$ van een abstracte populatie gegeven door een kansverdeling is het getal $x_{p}$ een $p$ -kwantiel als:

P(X\leq x_{p})\geq p

P(X\geq x_{p})\geq 1-p

In het bijzonder kunnen er dus meerdere $p$ -kwantielen bestaan. Om eenduidigheid af te dwingen wordt door sommige auteurs het gemiddelde van de mogelijke waarden die als kwantiel in aanmerking komen, als kwantiel gedefinieerd.

In termen van de verdelingsfunctie $F_{X}$ van $X$ zijn de bovenstaande eisen:

F_{X}(x_{p})\geq p

\lim _{x\uparrow x_{p}}F_{X}(x)\leq p

Bij een continue stochastische variabele $X$ met strikt stijgende verdelingsfunctie $F_{X}$ is het $p$ -kwantiel de eenduidige $x_{p}$ waarvoor geldt:

F_{X}(x_{p})=p

oftewel

x_{p}=F_{X}^{-1}(p)

Voor een concrete populatie of een steekproef, bestaande uit $n$ getallen $x_{1},\ldots ,x_{n}$ , waaronder mogelijk gelijke, wordt het $p$ -kwantiel $x_{p}$ bepaald door de eisen:

ten minste $\quad \ pn\quad$ van de data zijn kleiner dan of gelijk aan $x_{p}$ .
ten minste $(1-p)n$ van de data zijn groter dan of gelijk aan $x_{p}$ .

Hier geldt hetzelfde als in een discrete verdeling: als twee aangrenzende uitkomsten aan de eisen voldoen, neemt men het gemiddelde van beide als kwantiel.

In een abstracte of concrete populatie is een kwantiel een parameter van de populatie. In een steekproef is een kwantiel een schatting van het overeenkomstige kwantiel in de populatie waaruit de steekproef getrokken is.

Voorbeelden

Het 0,20-kwantiel $x_{0{,}20}$ in een exponentiële verdeling met parameter 1 wordt bepaald door de vergelijking:

0{,}20=F(x_{0{,}20})=1-e^{-x_{0{,}20}}

waaruit volgt:

x_{0{,}20}=-\ln(0{,}80)=\ln(5)-\ln(4)

Het 0,2-kwantiel van de (geordende) dataset van 9 data:

2,3,5,7,8,9,11,12,15

is het getal 3. Er zijn 2, dus ten minste 0,2×9=1,8 getallen kleiner dan of gelijk aan 3 en er zijn 8, dus ten minste 0,8×9=7,2 getallen groter dan of gelijk aan 3.

Van de dataset:

2,3,5,7,8,9,11,12,15,20

met 10 data voldoen zowel 3 als 5 aan de eisen. Het 0,2-kwantiel kwantiel is dus (3+5)/2 = 4. Het getal 4 scheidt de dataset mooi in een deel van 2 en een deel van 8 getallen.

Formule

Als de dataset een eindige populatie of een steekproefuitkomst betreft van $n$ elementen, is het $p$ -kwantiel het "element" met als rangnummer in de geordende data:

pn+{\tfrac {1}{2}}

Het woord "element" staat tussen aanhalingstekens, want niet altijd is dit rangnummer een geheel getal. Als kwantiel wordt dan het gemiddelde van de omliggende elementen gekozen.