Błędy typu I i typu II

Medycyna

W praktyce medycznej różnice między zastosowaniami badań przesiewowych i testów są znaczne.

Badania przesiewowe w medycynie

Badania przesiewowe obejmują stosunkowo tanie testy, które są podawane dużym populacjom, z których żadna nie przejawia żadnych klinicznych oznak choroby (np, Wymazy Pap).

Badania obejmują znacznie droższe, często inwazyjne procedury, które są wykonywane tylko u osób wykazujących pewne kliniczne oznaki choroby i są najczęściej stosowane w celu potwierdzenia podejrzewanej diagnozy.

Na przykład, większość stanów w USA wymaga, aby noworodki były badane pod kątem fenyloketonurii i niedoczynności tarczycy, wśród innych wrodzonych zaburzeń.

Hypoteza: „Noworodki mają fenyloketonurię i niedoczynność tarczycy”

Null Hypothesis (H0): „Noworodki nie mają fenyloketonurii i niedoczynności tarczycy”

Błąd typu I (fałszywie dodatni): Prawdziwym faktem jest, że noworodki nie mają fenyloketonurii i niedoczynności tarczycy, ale uważamy, że mają te zaburzenia zgodnie z danymi.

Błąd typu II (fałszywie negatywny): Prawdziwym faktem jest, że noworodki mają fenyloketonurię i niedoczynność tarczycy, ale uważamy, że nie mają zaburzeń zgodnie z danymi.

Ale wykazują wysoki wskaźnik wyników fałszywie dodatnich, testy przesiewowe są uważane za wartościowe, ponieważ znacznie zwiększają prawdopodobieństwo wykrycia tych zaburzeń na dużo wcześniejszym etapie.

Proste testy krwi używane do badania potencjalnych dawców krwi na obecność wirusa HIV i zapalenia wątroby mają znaczny odsetek wyników fałszywie dodatnich; jednakże lekarze używają znacznie droższych i bardziej precyzyjnych testów, aby określić, czy dana osoba jest rzeczywiście zakażona którymś z tych wirusów.

Prawdopodobnie najszerzej omawiane wyniki fałszywie dodatnie w medycznych badaniach przesiewowych pochodzą z mammografii, procedury przesiewowej w kierunku raka piersi. W USA odsetek fałszywie dodatnich wyników mammografii sięga 15% i jest najwyższy na świecie. Jedną z konsekwencji wysokiego odsetka wyników fałszywie dodatnich w USA jest to, że w każdym 10-letnim okresie połowa badanych Amerykanek otrzymuje fałszywie dodatni wynik mammograficzny. Fałszywie dodatnie wyniki badań mammograficznych są kosztowne – na badania kontrolne i leczenie wydaje się w USA ponad 100 milionów dolarów rocznie. Wywołują one także niepotrzebny niepokój u kobiet. Z powodu wysokiego odsetka wyników fałszywie dodatnich w Stanach Zjednoczonych aż 90-95% kobiet, u których mammografia daje wynik dodatni, nie cierpi na tę chorobę. Najniższy wskaźnik na świecie występuje w Holandii i wynosi 1%. Najniższe wskaźniki występują na ogół w Europie Północnej, gdzie mammografię odczytuje się dwukrotnie i ustala się wysoki próg dla dodatkowych badań (wysoki próg obniża moc testu).

Idealny populacyjny test przesiewowy byłby tani, łatwy do wykonania i w miarę możliwości nie dawałby wyników fałszywie ujemnych. Takie testy zazwyczaj dają więcej wyników fałszywie dodatnich, które mogą być następnie usunięte przez bardziej zaawansowane (i kosztowne) testy.

Testy medyczne

Fałszywe negatywy i fałszywe pozytywy są istotnymi problemami w testach medycznych.

Hipoteza: „Pacjenci mają określoną chorobę.”

Hipoteza zerowa (H0): „Pacjenci nie mają określonej choroby.”

Błąd typu I (fałszywie pozytywny): „Prawdziwym faktem jest, że pacjenci nie mają określonej choroby, ale lekarze oceniają, że pacjenci byli chorzy zgodnie z raportami z testów.”

Fałszywe wyniki pozytywne mogą również powodować poważne i sprzeczne z intuicją problemy, gdy poszukiwany stan jest rzadki, jak w przypadku badań przesiewowych. Jeśli test ma wskaźnik fałszywych wyników pozytywnych jeden na dziesięć tysięcy, ale tylko jedna na milion próbek (lub osób) jest prawdziwie pozytywna, większość wyników pozytywnych wykrytych przez ten test będzie fałszywa. Prawdopodobieństwo, że zaobserwowany wynik pozytywny jest fałszywie pozytywny, można obliczyć za pomocą twierdzenia Bayesa.

Błąd typu II (fałszywie negatywny): „Prawdziwym faktem jest to, że choroba jest rzeczywiście obecna, ale raporty z testów dostarczają pacjentom i lekarzom fałszywie uspokajającą wiadomość, że choroba jest nieobecna.”

Fałszywe negatywy powodują poważne i sprzeczne z intuicją problemy, zwłaszcza gdy poszukiwany stan jest powszechny. Jeśli test, którego odsetek fałszywych wyników negatywnych wynosi tylko 10%, jest używany do badania populacji, w której prawdziwy odsetek występowania choroby wynosi 70%, wiele wyników negatywnych wykrytych przez test będzie fałszywych.

To czasami prowadzi do niewłaściwego lub nieadekwatnego leczenia zarówno pacjenta, jak i jego choroby. Powszechnym przykładem jest poleganie na testach wysiłkowych serca w celu wykrycia miażdżycy naczyń wieńcowych, mimo że wiadomo, iż testy wysiłkowe serca wykrywają jedynie ograniczenia przepływu krwi w tętnicach wieńcowych spowodowane zaawansowanym zwężeniem.

Biometria

Pasowanie biometryczne, takie jak rozpoznawanie odcisków palców, rozpoznawanie twarzy lub rozpoznawanie tęczówki oka, jest podatne na błędy typu I i typu II.

Hipoteza: „Dane wejściowe nie identyfikują kogoś z poszukiwanej listy osób”

Hipoteza zerowa: „Dane wejściowe identyfikują kogoś z poszukiwanej listy osób”

Błąd typu I (współczynnik fałszywych odrzuceń): „Prawdziwym faktem jest, że osoba jest kimś z poszukiwanej listy, ale system stwierdza, że osoba nie jest nią zgodnie z danymi.”

Błąd typu II (współczynnik fałszywego dopasowania): „Prawdziwym faktem jest, że osoba nie jest kimś z wyszukanej listy, ale system wnioskuje, że osoba jest kimś, kogo szukamy zgodnie z danymi.”

Prawdopodobieństwo wystąpienia błędów typu I nazywane jest „współczynnikiem fałszywych odrzuceń” (FRR) lub współczynnikiem fałszywego niedopasowania (FNMR), natomiast prawdopodobieństwo wystąpienia błędów typu II nazywane jest „współczynnikiem fałszywych akceptacji” (FAR) lub współczynnikiem fałszywego dopasowania (FMR).

Jeśli system jest zaprojektowany tak, aby rzadko dopasowywać podejrzanych, wówczas prawdopodobieństwo wystąpienia błędów typu II można nazwać „współczynnikiem fałszywych alarmów”. Z drugiej strony, jeśli system jest używany do walidacji (a akceptacja jest normą), wtedy FAR jest miarą bezpieczeństwa systemu, podczas gdy FRR mierzy poziom niedogodności dla użytkownika.

Kontrola bezpieczeństwa

Główne artykuły: wykrywanie materiałów wybuchowych i wykrywacz metalu

Fałszywe wyniki są rutynowo wykrywane każdego dnia podczas kontroli bezpieczeństwa na lotniskach, które są ostatecznie systemami kontroli wizualnej. Zainstalowane alarmy bezpieczeństwa mają zapobiegać wnoszeniu broni na pokład samolotu; jednak często są one ustawione na tak wysoką czułość, że alarmują wiele razy dziennie w przypadku drobnych przedmiotów, takich jak klucze, sprzączki od paska, luźne drobne, telefony komórkowe i szpilki w butach.

Tutaj hipotezą jest: „Przedmiot jest bronią.”

Hipoteza zerowa: „Przedmiot nie jest bronią.”

Błąd typu I (fałszywie pozytywny): „Prawdziwym faktem jest, że przedmiot nie jest bronią, ale system nadal alarmuje.”

Błąd typu II (fałszywie negatywny): „Prawdziwym faktem jest, że przedmiot jest bronią, ale system w tej chwili milczy.”Stosunek fałszywych wyników pozytywnych (identyfikujących niewinnego podróżnego jako terrorystę) do prawdziwych wyników pozytywnych (wykrywających niedoszłego terrorystę) jest zatem bardzo wysoki; a ponieważ prawie każdy alarm jest fałszywie pozytywny, pozytywna wartość predykcyjna tych testów przesiewowych jest bardzo niska.

Względny koszt fałszywych wyników określa prawdopodobieństwo, że twórcy testów dopuszczą do takich zdarzeń. Ponieważ koszt fałszywego wyniku negatywnego w tym scenariuszu jest niezwykle wysoki (niewykrycie bomby wnoszonej na pokład samolotu może skutkować setkami ofiar śmiertelnych), podczas gdy koszt fałszywego wyniku pozytywnego jest stosunkowo niski (dość prosta dalsza kontrola), najbardziej odpowiednim testem jest taki, który ma niską statystyczną specyficzność, ale wysoką czułość statystyczną (taki, który pozwala na wysoki wskaźnik fałszywych wyników pozytywnych w zamian za minimalną liczbę fałszywych wyników negatywnych).

Komputery

Pojęcia fałszywych pozytywów i fałszywych negatywów mają szerokie zastosowanie w dziedzinie komputerów i aplikacji komputerowych, w tym bezpieczeństwa komputerowego, filtrowania spamu, złośliwego oprogramowania, optycznego rozpoznawania znaków i wielu innych.

Na przykład, w przypadku filtrowania spamu, hipotezą jest to, że wiadomość jest spamem.

Tak więc, hipoteza zerowa: „Wiadomość nie jest spamem.”

Błąd typu I (fałszywy pozytywny): „Techniki filtrowania lub blokowania spamu błędnie klasyfikują legalną wiadomość e-mail jako spam i w rezultacie zakłócają jej dostarczenie.”

Pomimo że większość taktyk antyspamowych może zablokować lub przefiltrować wysoki procent niechcianych wiadomości e-mail, robienie tego bez tworzenia znaczących wyników fałszywie pozytywnych jest znacznie bardziej wymagającym zadaniem.

Błąd typu II (false negative): „Spamowa wiadomość e-mail nie jest wykrywana jako spam, ale jest klasyfikowana jako nie-spamowa”. Niska liczba wyników fałszywie negatywnych jest wskaźnikiem skuteczności filtrowania spamu.

Dodaj komentarz Anuluj pisanie odpowiedzi