Articles

Typ-I- und Typ-II-Fehler

Posted on

Medizin

In der Praxis der Medizin sind die Unterschiede zwischen den Anwendungen von Screening und Testen beträchtlich.

Medizinisches Screening

Screening beinhaltet relativ billige Tests, die an große Populationen gegeben werden, von denen keiner einen klinischen Hinweis auf eine Krankheit zeigt (z.B., Pap-Abstriche).

Tests beinhalten weitaus teurere, oft invasive Verfahren, die nur bei denjenigen durchgeführt werden, die einen klinischen Hinweis auf eine Krankheit aufweisen, und werden meist zur Bestätigung einer Verdachtsdiagnose eingesetzt.

Zum Beispiel verlangen die meisten Bundesstaaten in den USA, dass Neugeborene auf Phenylketonurie und Hypothyreose, neben anderen angeborenen Störungen, untersucht werden.

Hypothese: „Die Neugeborenen haben Phenylketonurie und Hypothyreose“

Nullhypothese (H0): „Die Neugeborenen haben keine Phenylketonurie und keine Hypothyreose.“

Typ-I-Fehler (falsch positiv): Der wahre Sachverhalt ist, dass die Neugeborenen keine Phenylketonurie und Hypothyreose haben, aber wir nehmen an, dass sie die Störungen gemäß den Daten haben.

Typ II-Fehler (falsch negativ): In Wahrheit haben die Neugeborenen Phenylketonurie und Hypothyreose, aber wir gehen davon aus, dass sie die Störungen laut den Daten nicht haben.

Obwohl sie eine hohe Rate an falsch-positiven Ergebnissen aufweisen, werden die Screening-Tests als wertvoll angesehen, da sie die Wahrscheinlichkeit, diese Störungen in einem viel früheren Stadium zu erkennen, stark erhöhen.

Die einfachen Bluttests, die verwendet werden, um mögliche Blutspender auf HIV und Hepatitis zu untersuchen, haben eine signifikante Rate an falsch-positiven Ergebnissen; Ärzte verwenden jedoch viel teurere und weitaus präzisere Tests, um festzustellen, ob eine Person tatsächlich mit einem dieser Viren infiziert ist.

Die vielleicht am meisten diskutierten falsch-positiven Ergebnisse in der medizinischen Früherkennung stammen von dem Brustkrebs-Screening-Verfahren Mammographie. Die US-Rate der falsch-positiven Mammogramme ist mit bis zu 15 % die höchste der Welt. Eine Folge der hohen Falsch-Positiv-Rate in den USA ist, dass in jedem 10-Jahres-Zeitraum die Hälfte der untersuchten amerikanischen Frauen ein falsch-positives Mammogramm erhält. Falsch-positive Mammogramme sind kostspielig, da in den USA jährlich über 100 Millionen Dollar für Nachuntersuchungen und Behandlungen ausgegeben werden. Außerdem verursachen sie bei den Frauen unnötige Ängste. Infolge der hohen Falsch-Positiv-Rate in den USA haben 90-95% der Frauen, die ein positives Mammogramm erhalten, die Krankheit nicht. Die niedrigste Rate in der Welt ist in den Niederlanden, 1%. Die niedrigsten Raten sind im Allgemeinen in Nordeuropa zu finden, wo Mammographie-Filme zweimal gelesen werden und ein hoher Schwellenwert für zusätzliche Tests festgelegt wird (der hohe Schwellenwert verringert die Aussagekraft des Tests).

Der ideale Screening-Test für die Bevölkerung wäre billig, einfach zu verabreichen und würde möglichst keine falsch-negativen Ergebnisse liefern. Solche Tests produzieren in der Regel mehr falsch-positive Ergebnisse, die dann durch anspruchsvollere (und teurere) Tests aussortiert werden können.

Medizinische Tests

Falsch-negative und falsch-positive Ergebnisse sind ein wichtiges Thema bei medizinischen Tests.

Hypothese: „Die Patienten haben die spezifische Krankheit.“

Nullhypothese (H0): „Die Patienten haben die spezifische Krankheit nicht.“

Typ-I-Fehler (falsch positiv): „In Wahrheit haben die Patienten die spezifische Krankheit nicht, aber die Ärzte halten die Patienten laut Testberichten für krank.“

Falsch-positive Ergebnisse können auch zu schwerwiegenden und kontraintuitiven Problemen führen, wenn die gesuchte Krankheit selten ist, wie beim Screening. Wenn ein Test eine Falsch-Positiv-Rate von eins zu zehntausend hat, aber nur eine von einer Million Proben (oder Personen) ein echtes Positiv ist, werden die meisten der von diesem Test entdeckten Positiven falsch sein. Die Wahrscheinlichkeit, dass ein beobachtetes positives Ergebnis ein falsches Positiv ist, kann mit Hilfe des Bayes’schen Theorems berechnet werden.

Typ II Fehler (falsch negativ): „Die wahre Tatsache ist, dass die Krankheit tatsächlich vorhanden ist, aber die Testberichte vermitteln Patienten und Ärzten fälschlicherweise die beruhigende Botschaft, dass die Krankheit nicht vorhanden ist.“

Falsch-negative Ergebnisse führen zu schwerwiegenden und kontraintuitiven Problemen, insbesondere wenn die gesuchte Krankheit häufig ist. Wenn ein Test mit einer Falsch-Negativ-Rate von nur 10 % verwendet wird, um eine Population mit einer wahren Vorkommensrate von 70 % zu testen, werden viele der durch den Test entdeckten Negative falsch sein.

Dies führt manchmal zu einer unangemessenen oder unzureichenden Behandlung sowohl des Patienten als auch seiner Krankheit. Ein häufiges Beispiel ist das Vertrauen auf kardiale Stresstests, um koronare Atherosklerose zu erkennen, obwohl bekannt ist, dass kardiale Stresstests nur Einschränkungen des Blutflusses in den Koronararterien aufgrund von fortgeschrittener Stenose erkennen.

Biometrischer Abgleich, wie z.B. bei der Erkennung von Fingerabdrücken, Gesichts- oder Iriserkennung, ist anfällig für Typ I- und Typ II-Fehler.

Hypothese: „Die Eingabe identifiziert niemanden in der gesuchten Personenliste“

Nullhypothese: „Die Eingabe identifiziert jemanden in der gesuchten Personenliste“

Typ-I-Fehler (Falschrückweisungsrate): „Die wahre Tatsache ist, dass die Person jemand in der gesuchten Liste ist, aber das System schließt, dass die Person es nicht ist, gemäß den Daten.“

Typ II-Fehler (falsche Übereinstimmungsrate): „Die wahre Tatsache ist, dass die Person nicht jemand in der gesuchten Liste ist, aber das System schlussfolgert, dass die Person jemand ist, den wir laut den Daten suchen.“

Die Wahrscheinlichkeit von Fehlern des Typs I wird als „Falsche Ablehnungsrate“ (FRR) oder „Falsche Nichtübereinstimmungsrate“ (FNMR) bezeichnet, während die Wahrscheinlichkeit von Fehlern des Typs II als „Falsche Annahmerate“ (FAR) oder „Falsche Übereinstimmungsrate“ (FMR) bezeichnet wird.

Wenn das System so konzipiert ist, dass es nur selten Verdächtige übereinstimmt, kann die Wahrscheinlichkeit von Fehlern des Typs II als „Falscher Alarm“ bezeichnet werden. Wird das System hingegen zur Validierung eingesetzt (und die Akzeptanz ist die Norm), dann ist die FAR ein Maß für die Sicherheit des Systems, während die FRR den Grad der Unannehmlichkeiten für den Benutzer misst.

Sicherheitskontrollen

Hauptartikel: Sprengstoffdetektion und Metalldetektor

Falschpositive werden bei den Sicherheitskontrollen an Flughäfen, bei denen es sich letztlich um visuelle Inspektionssysteme handelt, jeden Tag routinemäßig festgestellt. Die installierten Sicherheitsalarme sollen verhindern, dass Waffen in die Flugzeuge gebracht werden; sie sind jedoch oft auf eine so hohe Empfindlichkeit eingestellt, dass sie mehrmals am Tag bei unbedeutenden Gegenständen wie Schlüsseln, Gürtelschnallen, Kleingeld, Handys und Reißzwecken in Schuhen Alarm schlagen.

Hier lautet die Hypothese: „Der Gegenstand ist eine Waffe.“

Die Nullhypothese: „Der Gegenstand ist keine Waffe.“

Typ-I-Fehler (falsch positiv): „Der wahre Sachverhalt ist, dass der Gegenstand keine Waffe ist, aber das System schlägt trotzdem Alarm.“

Typ II-Fehler (falsch negativ): „Der wahre Sachverhalt ist, dass der Gegenstand eine Waffe ist, aber das System schweigt zu diesem Zeitpunkt.“

Das Verhältnis von falsch-positiven (Identifizierung eines unschuldigen Reisenden als Terrorist) zu richtig-positiven (Entdeckung eines Möchtegern-Terroristen) ist daher sehr hoch; und da fast jeder Alarm ein falsch-positiver ist, ist der positive Vorhersagewert dieser Screening-Tests sehr niedrig.

Die relativen Kosten von falschen Ergebnissen bestimmen die Wahrscheinlichkeit, dass die Testentwickler diese Ereignisse zulassen. Da die Kosten eines falsch negativen Ergebnisses in diesem Szenario extrem hoch sind (eine Bombe, die in ein Flugzeug gebracht wird, nicht zu entdecken, könnte Hunderte von Toten zur Folge haben), während die Kosten eines falsch positiven Ergebnisses relativ niedrig sind (eine relativ einfache weitere Inspektion), ist der am besten geeignete Test ein Test mit einer niedrigen statistischen Spezifität, aber einer hohen statistischen Sensitivität (einer, der eine hohe Rate an falsch positiven Ergebnissen im Gegenzug zu minimalen falsch negativen Ergebnissen zulässt).

Computer

Die Begriffe „falsch positiv“ und „falsch negativ“ sind im Bereich der Computer und Computeranwendungen weit verbreitet, z. B. bei der Computersicherheit, der Spam-Filterung, Malware, der optischen Zeichenerkennung und vielen anderen.

Bei der Spam-Filterung beispielsweise lautet die Hypothese, dass es sich bei der Nachricht um Spam handelt.

Die Nullhypothese lautet also: „Die Nachricht ist kein Spam.“

Typ-I-Fehler (falsch positiv): „Spam-Filter- oder Spam-Blockierungstechniken stufen eine legitime E-Mail-Nachricht fälschlicherweise als Spam ein und behindern infolgedessen ihre Zustellung.“

Während die meisten Anti-Spam-Taktiken einen hohen Prozentsatz unerwünschter E-Mails blockieren oder filtern können, ist es eine viel anspruchsvollere Aufgabe, dies zu tun, ohne signifikante falsch-positive Ergebnisse zu erzeugen.

Typ II-Fehler (falsch-negativ): „Spam-E-Mails werden nicht als Spam erkannt, sondern als Nicht-Spam eingestuft.“ Eine geringe Anzahl von Falsch-Negativen ist ein Indikator für die Effizienz der Spam-Filterung.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.