Perzentile

Perzentile teilen die Ausprägungen der Variablen in gleich große Gruppen, sodass sich in jeder Gruppe der gleiche Prozentsatz an Werten befindet. Häufig genutzt werden die Quartile (= Viertel, jeweils 25%25\%). Bei Dezilen handelt es sich hingegen um Gruppen von jeweils 10%10\% der Werte.

Quartile teilen die Verteilung in vier gleich große Viertel: 25%25\% der Werte sind kleiner oder gleich groß mit dem 1. Quartil oder unterem Quartil (x~0.25\tilde{x}_{0.25}), 50%50\% sind kleiner oder gleich groß wie das 2. Quartil oder mittlere Quartil, das daher gleichzusetzen ist mit dem Median (x~0.5=x~\tilde{x}_{0.5}=\tilde{x}) und 75 % sind kleiner oder gleich groß mit dem 3. Quartil oder obere Quartil (x~0.75\tilde{x}_{0.75}).

Quartile werden erst ab einer Stichprobengröße von zumindest 2020 (n=20n=20) eingesetzt. Die grundsätzliche Berechnung von Perzentilen ist wie folgt:

Wenn npn*p ganzzahlig:

x~p=12(xnp+xnp+1)\tilde{x}_p = \frac{1}{2} (x_{n*p} + x_{n*p+1})

Wenn npn*p nicht ganzzahlig:

x~p=xnp\tilde{x}_p=x_{\lceil n*p \rceil}

Für die Quartile, als gängigste Form der Perzentile, ergeben sich folgende Formeln:

Wenn n0.75n*0.75 ganzzahlig:

x~0.75=12(xn0.75+xn0.75+1))\tilde{x}_{0.75} = \frac{1}{2} (x_{n*0.75} + x_{n*0.75+1}))

Wenn n0.75n*0.75 nicht ganzzahlig:

x~0.75=xn0.75\tilde{x}_{0.75}=x_{\lceil n*0.75 \rceil}⌉

Wenn n0.25n*0.25 ganzzahlig:

x~0.75=xn0.75\tilde{x}_{0.75}=x_{\lceil n*0.75 \rceil}

Wenn n0.25n*0.25 nicht ganzzahlig:

x~0.25=xn0.25\tilde{x}_{0.25}=x_{\lceil n*0.25 \rceil}⌉

Das mittlere Quartil ist gleich dem Median:

x~0.5=x~\tilde{x}_{0.5}=\tilde{x}

Dies berechnen wir kurz an einem Beispiel: Wir haben 2020 Studierende (n=20n=20) befragt nach der Anzahl der politikwissenschaftlichen Bücher, die sie jeweils besitzen.

Häufigkeitstabelle
Häufigkeitstabelle

Für die Berechnung eines Perzentils, bzw. im genaueren Fall eines Quartils, müssen die Daten immer in eine geordnete Reihe gesetzt werden:

1,3,4,4,5,5,7,7,7,9,9,11,12,17,18,18,24,24,31,311,3,4,4,5,5,7,7,7,9,9,11,12,17,18,18,24,24,31,31

x1,x2,x3,x.4,x5,x6,x7,x8,x9,x10,x11,x12,x13,x14,x15,x16,x17,x18,x19,x20x_1, x_2, x_3, x_.4, x_5, x_6, x_7, x_8, x_9, x_{10}, x_{11}, x_{12}, x_{13}, x_{14}, x_{15}, x_{16}, x_{17}, x_{18}, x_{19}, x_{20}

Um nun zu wissen, welche Formel wir für die Quartile berechnen müssen, müssen wir zuerst npn∗p berechnen.

0.2520=50.25*20=5

0.520=100.5*20=10

0.7520=150.75*20=15

Wir erhalten in allen Fällen ganzzahlige Ergebnisse, daher werden die Quartile wie folgt berechnet:

x~0.75=12(xn0.75+xn0.75+1)\tilde{x}_{0.75} = \frac{1}{2} (x_{n*0.75} + x_{n*0.75+1})

x~0.25=12(xn0.25+xn0.25+1)\tilde{x}_{0.25} = \frac{1}{2} (x_{n*0.25} + x_{n*0.25+1})

Für das dritte Quartil (75%75\%) ergibt sich daher:

x~0.75=12(xn0.75+xn0.75+1)=12(x15+x16)\tilde{x}_{0.75} = \frac{1}{2} (x_{n*0.75} + x_{n*0.75+1})=\frac{1}{2} \ast (x_{15} + x_{16})

An der 15. bzw. 16. Stellen der geordneten Datenreihe ist: x15=18x_{15}=18 und x16=18x_{16}=18

x~0.75=12(x15+x16)=12(18+18)=18\tilde{x}_{0.75} = \frac{1}{2} \ast (x_{15} + x_{16})=\frac{1}{2} \ast (18+18)=18

Das obere Quartil hat daher den Wert 1818 (x~0.75=18\tilde{x}_{0.75}=18).

Für das untere Quartil ergibt sich ebenso:

x~0.25=12(x200.25+x200.25+1)=12(x5+x6)\tilde{x}_{0.25} = \frac{1}{2} (x_{20*0.25} + x_{20*0.25+1})=\frac{1}{2} \ast (x_5 + x_6)

An der 5. bzw. 6. Stellen der geordneten Datenreihe ist: x5=5x_5=5 und x6=5x_6=5

x~0.25=12(x5+x6)=12(5+5)=5\tilde{x}_{0.25} =\frac{1}{2} \ast (x_5 + x_6)= \frac {1}{2} \ast (5+5) =5

Der Wert des unteren Quartils ist daher 55 (x~0.25=5\tilde{x}_{0.25}=5).

25%25\% der Werte des Merkmals Anzahl politikwissenschaftlicher Bücher sind kleiner/gleich 55 und 75%75\% der Werte des Merkmals sind kleiner/gleich 1818.

Bei ungeradem Wert von npn*p wird - entsprechend der Formel - der Wert aufgerundet.

Wenn wir nur 1818 Beobachtungen hätten, wäre np=180.75=13.5n*p=18*0.75=13.5 bzw. 180.25=4.518*0.25=4.5.

Das obere Quartil wäre daher x~0.75=x13.5=x14\tilde{x}_{0.75} = x_{\lceil 13.5 \rceil} =x_{14} bzw. das untere Quartil wäre x~0.25=x4.5=x5\tilde{x}_{0.25}=x_{\lceil 4.5 \rceil}=x_5.

Siehe auch: Gehring & Weins (2009, pp. 132–135).