Wir sehen uns die Voraussetzungen an und schließen dann. Die Hauptfehlerquellen sind das Übersehen von Voraussetzungen und die Verletzung der Schlussregeln, und wenn beides gezielt angewandt wird, kann dann von allem Möglichen behauptet werden, dass es bewiesen ist. Das geht mit statistischen Argumenten besonders eindrucksvoll, weil der geneigte Hörer glaubt, er könne ebenfalls richtig zählen. Wir wollen uns ansehen, wie das funktioniert, und die Ehre des Statistik retten. |
Damit ist zunächst nur Aussage oder Entscheidung ohne weitere Voruntersuchung gemeint, also eine Art Wette, unabhängig von spezifischer Kenntnis. Wir vermuten
etwas, und sagen auf Neudeutsch: ich denke mal ... Wir untersuchen eine Menge von Alternativen Ek, deren Wahrscheinlichkeit wir nur vermuten. Wenn wir die Alternativen im Einzelnen kennen, können wir sagen welche Wahrscheinlichkeit P[T|Ek] ein bestimmter Testwert T unter den verschiedenen Altenativen hat. Betrachten wir T als Schnitt durch alle Alternativen, dann ist P[T|Ek] = P[T geschnitten Ek] / P[Ek] und wir können schreiben P[T|Ek] = P[Ek|T] P[T]/ P[Ek] so dass sich P[Ek|T] / P[El|T] = P[Ek] / P[El] * P[T|Ek] / P[T|El] ergibt. Die Beobachtung T verändert unsere vermutete Wette und präzisiert sie, bringt aber keine absolute Sicherheit. |
Wenn wir eine Größe Θwahr wissen wollen, na dann messen wir sie einfach!
Messungen haben aber immer Fehler. Was der Taschenrechner anbietet: Messung mehrmals durchführen,
Mittelwert m und Streuung s bestimmen und die Schätzung dann so formulieren:
Mit einer bestimmten Wahrscheinlichkeit überdeckt ein Intervall um den Mittelwert m den wahren Wert Θwahr. Das heiß Konfidenzschätzung und wir nennen die Wahrscheinlichkeit,
dass das Intervall irgendeinen Wert Θ überdeckt, die Kennfunktion der Schätzung: W[Θ in [m-es,m+es] falls Θwahr richtig] = W[Θ,Θwahr,e] Den Faktor e lassen wir noch offen. Er repräsentiert unsere Freiheit, die Breite des Konfidenzintervalls noch zu wählen. Der Wert W[Θwahr,Θwahr,e] heißt Konfidenzniveau. Er soll möglichst dicht an 1 liegen, aber je dichter er an 1 liegt, desto breiter wird die Kennfunktion. Die Schätzung wird dann immer ungenauer. |
Wir wollen testen, ob wir uns für das Zutreffen einer Zielgröße Θziel entscheiden können (etwa bei einer Qualitätskontrolle).
Wir wollen das tun, wenn das Intervall [m-es,m+es] diese Zielgröße enthät.
Wir nennen die Abweichung des Messwerts m vom Zielwert nur dann signifikant, wenn
das Intervall den Zielwert nicht mehr enthält. Wenn der wahre Wert gleich dem Zielwert ist,
sollte die Wahrscheinlichkeit dafür besonders klein sein. Θziel wird mit der Wahscheinlichkeit W[Θziel,Θwahr,e] akzeptiert. Was bei der Konfidenzschätzung Konfidenzniveau hieß, ist jetzt das Signifikanzniveau des Tests. Die Abweichung von 1 heißt Fehler erster Art. Er bezeichnet die Wahrscheinlichkeit, dass der Zielwert als nicht erreicht angesehen wird, obwohl er richtig ist. Wir können ihn mit dem Faktor e beeinflussen, stehen aber wieder vor dem gleichen Dilemma: Je höher das Signifikanzniveau, desto größer nun wieder der Fehler zweiter Art: Er bezeichnet die Wahrscheinlichkeit, dass der Zielwert als erreicht angesehen wird, obwohl er es nicht ist, d.h. obwohl er von Θwahr abweicht. |
Wie finden wir die beste Strategie (hier vertreten durch den Faktor e)?
Wir brauchen eine Bewertung der Fehler, um sie gegeneinander abwägen zu können.
Es entstehen Kosten, wenn bei einer Gütekontrolle der Fehler erster Art gemacht wird,
weil es dann überflüssige Nacharbeit gibt. Es entstehen aber noch mehr Kosten,
wenn der Fehler zweiter Art gemacht wird, etwa Rücknahme, Unfälle, Strafe ins Haus stehen.
Die Kosten betragen also K[Θwahr,e] = K1(1-W[Θziel,Θwahr,e]) + K2[Θwahr]W[Θziel,Θwahr,e]. Nun brauche wir "nur" noch eine Vorstellung, wie über Θwahr zu mitteln ist, und dann können wir das optimale e suchen. |
|