Statistisches Testen

1 Grundlagen des statistischen Testens

Es muss eine Fragestellung existieren (so genannte Forschungshypothese, z.B. „der betrügt doch“)
Diese muss sich in ein statistisch testbares Hypothesenpaar übersetzen lassen, wobei in die Nullhypothese \(H_0\) wann immer möglich das Gegenteil der Forschungshypothese gesteckt wird. Z.B.: Wenn die Zahlen nicht manipuliert sind, dann entstammen sie einer Benford–Verteilung \(\Rightarrow H_0:\) „Die Zahlen folgen einer Benford–Verteilung.“ Hierzu gehört dann die Alternativhypothese \(H_1:\) „Die Zahlen folgen nicht einer Benford–Verteilung.“
Es wird ein Signifikanzniveau \(\alpha\) festgelegt, z.B. \(\alpha=0.01=1\%\). Das ist die Wahrscheinlichkeit, die Nullhypothese abzulehnen, obwohl sie wahr ist. \(\Rightarrow\) Der so genannte \(\alpha\)–Fehler oder auch Fehler 1. Art.
Es ist eine geeignete Stichprobe zu wählen, z.B. die erste Nachkommastelle aller Kassenbelege oder die Tagesumsätze o.ä..
Hieraus wird eine geeignete Teststatistik berechnet.
Diese wird mit dem kritischen Bereich verglichen.
Es wird die Testentscheidung gefällt: Liegt der berechnete Wert der Teststatistik im kritischen Bereich, so wird die \(H_0\) zu Gunsten der \(H_1\) abgelehnt, was die Forschungshypothese untermauert (aber keinesfalls beweist).

2 Der Chi-Quadrat-Test

2.1 Anwendungsgebiet

Der \(\chi^2\)–Test wird in den folgenden drei Formen eingesetzt.

2.1.1 Homogenitätstest

Der Homogenitätstest vergleicht zwei (oder mehr) Stichproben, ob diese homogen (i.e. gleichförmig) verteilt erscheinen. Die Nullhypothese lautet hier „die Stichproben stammen aus der gleichen Verteilung“ mit der Alternativhypothese „mindestens eine Stichprobe stammt aus einer anderen Verteilung als die anderen Stichproben.“ Eine Anwendung in der Betriebsprüfung wäre zum Beispiel: „Chef und Angestellter eines Friseursalons verrichten gleichartige Arbeit an den Kunden. Beide sollten also sehr ähnliche Einzelumsätze produzieren. Unterschlägt der Chef eventuell bestimmte Einzelumsätze, wozu er dem Angestellten keine Anweisung erteilen kann/darf/möchte?“ \(\Rightarrow\) Vergleich der Umsatzzahlen von Chef und Angestelltem mit einem Homogenitätstest. Hier muss natürlich sorgfältigst darauf geachtet werden, dass beide tatsächlich im Durchschnitt gleichartige Tätigkeiten am Kunden ausführen, denn sonst steht das Ergebnis (Ablehung) vorher schon mit hoher Wahrscheinlichkeit fest.

2.1.2 Unabhängigkeitstest

Der Unabhängigkeitstest untersucht, ob die Verteilung von Werten unabhängig von einem (häufig nominalen/qualitativen) Merkmal ist. So kann man in der Betriebsprüfung, bevor man z.B. Tagesumsätze mit einem Anpassungstest gegen eine Lognormalverteilung vergleicht, prüfen, ob die Verteilung sich für einzelne Tage unterscheidet. Stellt man so signifikante Unterschiede zwischen den Tagen fest, so dürfen nur Umsätze solcher Tage gepoolt werden, zwischen denen keine signifikanten Unterschiede bestehen.

2.1.3 Anpassungstest

Der Anpassungstest prüft, ob es plausibel ist, dass eine Stichprobe einer bestimmten Verteilung entstammt. Gerne hergenommen werden hierfür die Benford-Verteilung für einzelne Ziffern und die Lognormalverteilung für Umsatzzahlen, Rechnungsbeträge etc.. Wichtig ist hierbei die Voraussetzung, dass die so betrachteten Zahlen überhaupt eine Chance haben aus einer solchen Verteilung zu stammen. Prüft man z.B. die erste Nachkommastelle der Rechnungsbeträge eines Geschäfts, dessen Preise alle auf \(x.50\) und \(x.00\) enden, gegen eine Benford–Verteilung, so wird dieser Test immer „zu Ungunsten“ des Geschäfts ausfallen — jedoch nicht, weil die Bücher manipuliert sind, sondern weil eine ungeeignete Nullhypothese getestet wurde.

2.2 Vorgehen mit einfachem Beispiel

2.2.1 Forschungshypothese

Wir spielen mit Jack ein Würfelspiel. Er gewinnt immer, wenn er eine 6 würfelt. Für unser Gefühl gewinnt er zu häufig, und wir vermuten, dass sein Würfel nicht fair ist (also nicht jede Seite mit gleicher Wahrscheinlichkeit fällt). Das ist unsere Forschungshypothese.

2.2.2 Hypothesenpaar

Ein fairer Würfel sollte alle Werte \(X \in \{1,2,3,4,5,6\}\) mit gleicher Wahrscheinlichkeit von \(\Pr(X=x)=1/6\) produzieren. Die Werte sollten also einer diskreten Gleichverteilung mit dem eben schon genannten Träger folgen. Dies ist unsere Nullhypothese \(H_0:\) „Jacks Würfel produziert Zahlen, die einer Gleichverteilung mit dem Träger \(\{1,2,3,4,5,6\}\) entstammen.“ Unsere Alternativhypothese lautet dann \(H_1:\) „\(H_0\) trifft nicht zu.“

2.2.3 Signifikanzniveau

Wir wollen vorsichtig sein, und Jack nur dann Betrug vorwerfen, wenn wir die Nullhypothese — sollte sie richtig sein — nur mit 1%iger Wahrscheinlichkeit ablehnen. Daher wählen wir unser Signifikanzniveau \(\alpha = 0.01\).

2.2.4 Stichprobe

Wir haben 100 Spiele mit Jack gespielt, und jeweils den gefallenen Wert notiert. Es ergibt sich folgende Tabelle:

\(X_i\)	1	2	3	4	5	6
wie oft? \(n_i\)	15	13	18	14	16	24

2.2.5 Teststatistik

Hieraus wird nun eine geeignete Teststatistik errechnet. Wir entscheiden uns, einen \(\chi^2\)–Anpassungstest durchzuführen. Dieser vergleicht die tatsächlich beobachteten Häufigkeiten \(n_i\) mit den Häufigkeiten, die die in unserer Nullhypothese genannte Verteilung im „Idealfall“ (im Durchschnitt) produziert hätte, \(n_{0,i}\):

\(X_i\)	1	2	3	4	5	6
\(n_i\)	15	13	18	14	16	24
\(n_{0,i}\)	16.67	16.67	16.67	16.67	16.67	16.67
\(\frac{(n_i - n_{0,i})^2}{n_{0,i}}\)	0.1673	0.8080	0.1061	0.4276	0.0269	3.2231

Summiert man nun die letzte Zeile, so erhält man die Teststatistik des Chi-Quadrat-Tests \(\chi^2 = 4.7590\).

2.2.6 Kritischer Bereich

Trifft die Nullhypothese zu, so folgt die Teststatistik einer \(\chi^2\)–Verteilung mit fünf Freiheitsgraden. Wir bestimmen das 99%–Quantil (das \(1-\alpha\)–Quantil) dieser Verteilung. Es lautet \(\chi^2(0.99,df=5) = 15.09\). Der kritische Bereich besteht aus allen Werten rechts von 15.09.

2.2.7 Testentscheidung

Die Teststatistik liegt nicht im kritischen Bereich, daher lehnen wir die Nullhypothese nicht ab. Augenscheinlich ist die Sechs zwar häufiger gefallen als die anderen Werte, aber dass es zu einem solchen Ergebnis kommen kann, wenn man 100 Male würfelt, ist laut dem Test nicht so unwahrscheinlich, als dass man Jack des Schummelns beschuldigen sollte.

Praxisbeispiel

Unzulässigkeit

Vortrag "Datenanalyse in der Außenprüfung"