Was ist ein nichtparametrischer Test?

Ein nichtparametrischer Test ist eine Art statistischer Hypothesentest, der keine Normalverteilung annimmt. Aus diesem Grund werden nichtparametrische Tests manchmal als verteilungsfrei bezeichnet. Ein nichtparametrischer Test ist robuster als ein Standardtest, erfordert im Allgemeinen kleinere Stichproben, wird weniger wahrscheinlich durch abweichende Beobachtungen beeinflusst und kann mit weniger Annahmen angewendet werden. Andererseits können nichtparametrische Tests weniger effizient sein als ihre Standardgegenstücke, insbesondere wenn die Population wirklich normalverteilt ist. Nichtparametrisches Testen ist besonders effektiv bei Fragen, die sich mit Häufigkeiten und Proportionen befassen.

Beim Standardhypothesentest wird eine Stichprobe aus einer Testpopulation mit einer Stichprobe aus einer Kontrollpopulation verglichen, um zu bestimmen, ob die Testpopulation statistisch mit der Kontrollpopulation vergleichbar ist. Wenn der Unterschied zwischen dem oder den Stichprobenparametern – normalerweise dem Mittelwert und/oder der Varianz – groß genug ist, kann beurteilt werden, dass sich die Teststichprobe von der Kontrollpopulation unterscheidet. Ein solches parametrisches Testen erfordert, dass die Parameter aus einer Normalverteilung stammen.

Es ist mathematisch bewiesen, dass sich eine Stichprobengröße von 30 oder mehr ungefähr wie eine Normalverteilung verhält, daher wird diese Anforderung im Allgemeinen angenommen. Wenn die Annahme jedoch nicht gerechtfertigt ist, sind die Testergebnisse möglicherweise nicht gültig. Nichtparametrisches Testen vermeidet diese Annahme.

Stattdessen werden beim nichtparametrischen Hypothesentest Daten im Allgemeinen entweder durch Kategorisieren oder Ordnen untersucht. Wenn die Stichproben- und Kontrollpopulationen gleich sind und die Daten korrekt erhoben wurden, sind etwaige Unterschiede zwischen ihren Kategorien oder Rangfolgen rein zufällig das Ergebnis. Wenn die Wahrscheinlichkeit, dass diese Unterschiede zufällig aufgetreten sein könnten, auch P-Wert genannt, geringer ist als eine gewählte signifikante Wahrscheinlichkeit, normalerweise entweder 5 Prozent oder 1 Prozent, dann lehnt der Tester die Hypothese ab, dass die Stichproben- und Kontrollpopulationen die gleich und kommt zu dem Schluss, dass sie unterschiedlich sind.

Ein üblicher nichtparametrischer Test ist ein Chi-Quadrat-Test, der verwendet wird, um beobachtete Häufigkeiten oder Anteile zu vergleichen. Wenn nur ein Satz von Frequenzen untersucht wird, wird dies oft als Anpassungstest bezeichnet und wird verwendet, um zu bestimmen, ob die beobachteten Frequenzen in den zu erwartenden Bereich passen. Zum Beispiel könnte ein Eignungstest verwendet werden, um zu bestimmen, ob ein Roulettetisch manipuliert wurde, indem die Tabellenergebnisse mit den Ergebnissen verglichen werden, die die Wahrscheinlichkeitstheorie vorhersagt, oder um zu bestimmen, ob ein Kopfschmerzmittel wirksam ist, indem der Anteil der Personen verglichen wird, deren Kopfschmerzen verbesserte sich mit dem Arzneimittel auf den Anteil der Personen, deren Kopfschmerzen sich verbesserten, als sie ein Placebo einnahmen. Wenn zwei Häufigkeiten untersucht werden, kann der nichtparametrische Chi-Quadrat-Test verwendet werden, um die Korrelation oder Unabhängigkeit zwischen Faktoren zu testen. Politische Meinungsforscher suchen häufig nach Korrelationen zwischen sozialen, wirtschaftlichen oder demografischen Faktoren und politischen Überzeugungen, beispielsweise ob es einen Zusammenhang zwischen der Ausbildung einer Person und der Zustimmung zu den Leistungen eines gewählten Amtsträgers gibt.

Ein weiterer nichtparametrischer Test ist der Wilcoxon-Rangsummentest, der im Allgemeinen in den gleichen Situationen wie der standardmäßige parametrische Hypothesentest verwendet wird. Anstatt den Mittelwert jeder Stichprobe zu untersuchen, untersucht der Wilcoxon-Test jedoch den Rang jedes Wertes, wenn die beiden Stichproben vom kleinsten zum größten geordnet sind. Wenn die beiden Stichproben gleich sind, sollte jede Gruppe gleichmäßig über das Ranking verteilt werden. Wenn eine Gruppe am unteren oder oberen Ende des Rankings gruppiert ist, deutet dies darauf hin, dass die beiden Gruppen unterschiedlich sind.
Angenommen, jemand möchte feststellen, ob animierte Filme länger oder kürzer sind als nicht animierte Filme. Für einen Standardtest würde er oder sie die durchschnittliche Dauer für eine Stichprobe von Animationsfilmen und für eine Stichprobe von Live-Action-Filmen bestimmen und die Differenz mit der Varianz der Stichproben vergleichen. Für den nichtparametrischen Wilcoxon-Test werden die Filmzeiten vom kleinsten zum größten geordnet, und die Ränge der Animationsfilmzeiten werden summiert.

Die Person könnte die Wahrscheinlichkeit berechnen, dass die Rangsumme diese Größe oder kleiner sein würde, indem sie die Anzahl der möglichen Ordnungen mit einer gegebenen Rangsumme und die Gesamtzahl der möglichen Ordnungen bestimmt, eine Berechnung, die einfach ist, wenn genügend Brute-Force-Berechnungsstärke gegeben ist. Bei zwei kleinen Stichproben von jeweils sechs Filmen gibt es bereits 924 mögliche Rangordnungen, eine Zahl, die mit dem Hinzufügen von Filmen schnell noch größer wird. Alternativ gibt es veröffentlichte Tabellen, die Wahrscheinlichkeiten entsprechend gegebenen Rangsummen für gegebene Stichprobengrößen angeben. Diese sind in Statistiktexten oder online zu finden.
Nichtparametrisches Testen ist ein wachsendes Feld. Es kann in jedem Bereich angewendet werden, in dem auch konventionellere Statistiken verwendet wurden. Anwendungen sind jedoch insbesondere in den Sozialwissenschaften und in der Medizin verbreitet, insbesondere wenn die Normalverteilung nicht gelten kann.