FPR (współczynnik fałszywie dodatnich wyników) vs FDR (odsetek fałszywych wyników wyszukiwania)

20

Poniższy cytat pochodzi ze słynnego artykułu badawczego Znaczenie statystyczne dla badań całego genomu Storey i Tibshirani (2003):

Na przykład fałszywie dodatni wskaźnik wynoszący 5% oznacza, że ​​średnio 5% prawdziwie zerowych cech w badaniu zostanie nazwanych znaczącymi. FDR (wskaźnik fałszywych odkryć) wynoszący 5% oznacza, że ​​spośród wszystkich funkcji nazywanych znaczącymi, 5% z nich jest naprawdę zerowych.

Czy ktoś może wyjaśnić, co to znaczy, używając prostego przykładu liczbowego lub wizualnego? Trudno mi zrozumieć, co to znaczy. Znalazłem różne posty na temat FDR lub samego FPR, ale nie znalazłem żadnego, w którym dokonano konkretnego porównania.

Byłoby szczególnie dobrze, gdyby ktoś ekspert w tej dziedzinie mógł zilustrować sytuacje, w których jedno jest lepsze od drugiego lub oba są dobre lub złe.

李 慕
źródło
3
Zauważyłem, że nagrodziłeś nagrodę @ mkt nagrodą, Naseer. Jeśli ta odpowiedź rozwiązała twoje pytanie, możesz również je zaakceptować, klikając znacznik wyboru po lewej stronie poniżej wskaźnika nagrody.
gung - Przywróć Monikę

Odpowiedzi:

29

Wyjaśnię to na kilka różnych sposobów, ponieważ pomogło mi to zrozumieć.

Weźmy konkretny przykład. Robisz test na chorobę na grupie ludzi. Teraz zdefiniujmy niektóre terminy. W odniesieniu do każdego z poniższych mam na myśli osobę, która została przetestowana:

Prawdziwie pozytywny (TP) : Ma chorobę, którą zidentyfikowano jako chorującą

Fałszywie dodatni (FP) : Nie ma choroby, zidentyfikowanej jako choroba

Prawdziwie negatywny (TN) : Nie ma choroby, zidentyfikowanej jako brak choroby

Fałszywie ujemny (FN) : Ma chorobę zidentyfikowaną jako nie chorująca

Wizualnie jest to zazwyczaj pokazane przy użyciu macierzy pomieszania :

wprowadź opis zdjęcia tutaj

Fałszywie dodatnich (FPR) jest liczba osób, które nie mają tej choroby, ale są zidentyfikowane jako posiadające choroby (wszystkie fps), podzieloną przez łączną liczbę osób, które nie mają choroby (zawiera wszystkie FPS i TNS) .

faP.R=faP.faP.+T.N.

Wskaźnik fałszywych odkryć (FDR) to liczba osób, które nie chorują, ale są zidentyfikowane jako chore (wszystkie FP), podzielona przez całkowitą liczbę osób, u których stwierdzono chorobę (obejmuje wszystkie FP i TP ).

fareR=faP.faP.+T.P.


Różnica polega na mianowniku, tj. Do czego porównujesz liczbę fałszywych trafień?

FPR mówi ci odsetek wszystkich osób, które nie mają tej choroby, którzy zostaną zidentyfikowane jako posiadające choroby.

FDR mówi ci odsetek wszystkich osób zidentyfikowanych jako mający chorobę, którzy nie mają choroby.

Oba są zatem użytecznymi, odrębnymi miernikami niepowodzenia. W zależności od sytuacji i proporcji TP, FP, TN i FN, możesz być bardziej zainteresowany jednym z nich.


Dodajmy teraz do tego kilka liczb. Zmierzyłeś 100 osób na tę chorobę i otrzymałeś:

Prawdziwie pozytywne (TP) : 12

Fałszywie pozytywne (FP) : 4

Prawdziwe negatywy (TN) : 76

Fałszywe negatywy (FN) : 8

Aby to pokazać za pomocą macierzy zamieszania:

wprowadź opis zdjęcia tutaj

Następnie,

faP.R=faP.faP.+T.N.=44+76=480=0,05=5%

fareR=faP.faP.+T.P.=44+12=416=0,25=25%

Innymi słowy,

FPR informuje, że 5% osób z osób, które nie chorowały, zostało zidentyfikowanych jako cierpiące na tę chorobę. FDR informuje, że 25% osób zidentyfikowanych jako cierpiące na tę chorobę faktycznie nie miało tej choroby.


EDYCJA na podstawie komentarza @ amoeba (także liczby w powyższym przykładzie):

n

[Uwaga dodatkowa: Wikipedia wskazuje, że chociaż FPR jest matematycznie równoważny ze wskaźnikiem błędów typu I, jest uważany za odrębny pod względem koncepcyjnym, ponieważ jeden jest zazwyczaj ustalany a priori, a drugi jest zwykle używany do pomiaru wydajności testu później. To ważne, ale nie będę o tym tutaj rozmawiać].


I dla nieco większej kompletności:

Oczywiście FPR i FDR nie są jedynymi istotnymi wskaźnikami, które można obliczyć za pomocą czterech wielkości w macierzy pomieszania. Spośród wielu możliwych wskaźników, które mogą być przydatne w różnych kontekstach , dwa stosunkowo często spotykane:

Rzeczywisty wskaźnik dodatni (TPR) , znany również jako wrażliwość , to odsetek osób z chorobą, które zostały zidentyfikowane jako cierpiące na tę chorobę.

T.P.R=T.P.T.P.+faN.

Rzeczywisty wskaźnik ujemny (ang. True Negative Rate, TNR) , znany również jako specyficzność , to odsetek osób, które nie chorują, które zidentyfikowano jako nie chorujące.

T.N.R=T.N.T.N.+faP.

mkt - Przywróć Monikę
źródło
3
+1. Sensowne może być dostosowanie przykładu liczbowego tak, aby FPR = 5%, ponieważ to właśnie będzie, jeśli użyjesz p <0,05 jako kryterium (zakładając, że test ma prawidłowy rozmiar). Lub 1%, jeżeli p <0,01, cokolwiek. Wskazanie tego połączenia może być pomocne dla niektórych czytelników.
Ameba mówi Przywróć Monikę
1
@amoeba Dziękuję, to dobry pomysł. Spróbuję to zrobić później.
mkt - Przywróć Monikę
2

Powinieneś sprawdzić tabelę w https://en.wikipedia.org/wiki/Confusion_matrix . Uwaga: FPR jest ustawiony pionowo, podczas gdy FDR jest poziomy.

  • FP dzieje się, jeśli twoja hipoteza zerowa jest prawdziwa, ale ją odrzucasz
  • FD dzieje się, jeśli przewidujesz coś znaczącego, ale nie powinieneś
SmallChess
źródło
Wiem o tym, ale jestem szczególnie zainteresowany porównaniem, na przykład, gdybyś mógł wyjaśnić tę koncepcję za pomocą niektórych liczb i wizualizacji w celu wsparcia twoich liczb, które byłyby bardzo interesujące.