Testowanie hipotez i całkowity dystans wariancji vs. dywergencja Kullbacka-Leiblera

10

W moich badaniach natrafiłem na następujący ogólny problem: mam dwie rozkłady i w tej samej domenie i dużą (ale skończoną) liczbę próbek z tych rozkładów. Próbki są niezależnie i identycznie rozmieszczone z jednego z tych dwóch rozkładów (chociaż rozkłady mogą być powiązane: na przykład Q może być mieszaniną P i niektórych innych rozkładów). Hipotezą zerową jest to, że próbki pochodzą z P , alternatywną hipotezą jest to, że próbek pochodzących z Q .PQP P QQPPQ

Staram się charakteryzować typu I i typu II błędów badanie próbki, znając rozkładów P i Q . Szczególnie interesuje mnie w podskokach jeden błąd, biorąc pod uwagę inne, oprócz wiedzy P i Q .

Zadałem pytanie na matematyce. Dotyczące związku odległości całkowitej zmienności między P i Q do testowania hipotez i otrzymałem odpowiedź, którą zaakceptowałem. Ta odpowiedź ma sens, ale wciąż nie byłam w stanie skupić się na głębszym znaczeniu związku między odległością testowania całkowitej zmienności a testowaniem hipotez w związku z moim problemem. Postanowiłem więc przejść do tego forum.

Moje pierwsze pytanie brzmi: czy całkowita zmienność jest uzależniona od sumy prawdopodobieństw błędów typu I i typu II niezależnie od stosowanej metody testowania hipotez? Zasadniczo, o ile istnieje niezerowe prawdopodobieństwo, że próbka mogła zostać wygenerowana przez jeden z rozkładów, prawdopodobieństwo co najmniej jednego z błędów musi być niezerowe. Zasadniczo nie można uniknąć możliwości, że tester hipotez popełni błąd, bez względu na to, ile przetworzysz sygnału. A Total Variation ogranicza tę dokładną możliwość. Czy moje rozumowanie jest prawidłowe?

Istnieje również inna zależność między błędami typu I i II a leżącymi u ich podstaw rozkładami prawdopodobieństwa i : dywergencja KL . Zatem moje drugie pytanie brzmi: czy ograniczenie dywergencji KL ma zastosowanie tylko do jednej konkretnej metody testowania hipotez (wydaje się, że bardzo często dotyczy metody logarytmicznej ilorazu prawdopodobieństwa), czy można zastosować ją ogólnie we wszystkich metodach testowania hipotez? Jeśli ma zastosowanie we wszystkich metodach testowania hipotez, to dlaczego tak bardzo różni się on od granicy Całkowitej zmienności? Czy zachowuje się inaczej?QPQ

A moje podstawowe pytanie brzmi: czy istnieje określony zestaw okoliczności, w których powinienem użyć albo związanego, czy jest to wyłącznie kwestia wygody? Kiedy wynik powinien być uzyskany przy użyciu jednej powiązanej blokady przy użyciu drugiej?

Przepraszam, jeśli te pytania są trywialne. Jestem informatykiem (więc wydaje mi się, że to fantazyjny problem z dopasowaniem wzoru :).) Znam dość dobrze teorię informacji i mam również wykształcenie wyższe w zakresie teorii prawdopodobieństwa. Jednak dopiero zaczynam się uczyć tych wszystkich hipotez testujących. W razie potrzeby dołożę wszelkich starań, aby wyjaśnić moje pytania.

MBM
źródło

Odpowiedzi:

8

Literatura: Większość potrzebnych odpowiedzi znajduje się w książce Lehmana i Romano . Książka Ingster i Suslina porusza bardziej zaawansowane tematy i może dać dodatkowe odpowiedzi.

Odpowiedź: Jednak rzeczy są bardzo proste: (lub ) to „prawdziwa” odległość, którą należy zastosować. Nie jest to wygodne do formalnego obliczenia (szczególnie przy pomiarach produktu, tj. Gdy masz próbkę o wielkości ) i można użyć innych odległości (które są górnymi granicami ). Pozwól, że dam ci szczegóły. T V n L 1L1TVnL1

Rozwój: Oznaczmy przez

  • α 0 P 0 P 1g1(α0,P1,P0) minimalny błąd typu II z błędem typu I dla i zero i alternatywa.α0P0P1
  • t ( 1 - t ) P 0 P 1g2(t,P1,P0) suma minimalnej możliwej typu I + typu II błędów z i zerowej i alternatywnych.t(1t)P0P1

Są to minimalne błędy, które należy przeanalizować. Równości (nie dolne granice) podano w twierdzeniu 1 poniżej (w kategoriach odległości (lub odległości telewizyjnej, jeśli tak). Nierówności między odległością a innymi odległościami podaje Twierdzenie 2 (zauważ, że do dolnej granicy błędów potrzebne są górne granice lub ). L 1 L 1 T VL1L1L1TV

Którego następnie należy użyć, jest to wygoda, ponieważ jest często trudniejszy do obliczenia niż Hellinger, Kullback lub . Główny przykład takiej różnicy pojawia się, gdy i są produktu które pojawiają się w przypadku, gdy chcesz przetestować porównaniu z z próbką o wielkości . W tym przypadku i inne są uzyskiwane z (to samo dla i ), ale nie można tego zrobić z ...L1χ2P1P0Pi=pin i=0,1p1p0nh(P1,P0)h(p1,p0)KLχ2L1

Definicja: Powinowactwo między dwiema miarami i jest zdefiniowane jako .A1(ν1,ν0)ν1ν2

A1(ν1,ν0)=min(dν1,dν0)

Twierdzenie 1 Jeśli(połowa dystansu TV) |ν1ν0|1=|dν1dν0|

  • 2A1(ν1,ν0)=(ν1+ν0)|ν1ν0|1 .
  • g1(α0,P1,P0)=supt[0,1/α0](A1(P1,tP0)tα0)
  • g2(t,P1,P0)=A1(tP0,(1t)P1)

Tutaj napisałem dowód .

Twierdzenie 2 Dla prawdopodobieństwa i : P1P0

12|P1P0|1h(P1,P0)K(P1,P0)χ2(P1,P0)

Granice te wynikają z kilku dobrze znanych statystyk (LeCam, Pinsker, ...). jest odległością Hellingera, dywergencją KL, a dywergencją chi-kwadrat. Wszystkie są tutaj zdefiniowane . i podano dowody tych granic (dalsze rzeczy można znaleźć w książce Tsybacova ). Jest też coś, co jest prawie dolną granicą autorstwa Hellingera ...hKχ2L1

Robin Girard
źródło
1
Dziękuję za odpowiedź, teraz próbuję ją przetrawić. W moim problemie dopuściłem błąd typu I. Mam również dwie dystrybucje i . Wiem, że telewizja między nimi (a także KL). Mówisz więc, że telewizja daje bardziej rygorystyczną dolną granicę błędu typu II niż KL, co oznacza, że ​​powinienem używać TV do mojej analizy, jeśli chcę jak najściślejszego dolnego limitu, jak to możliwe? P0P1
MBM,
I dziękuję za sugestię książki Lehmanna i Romano, wygląda bardzo pomocnie i nie za bardzo nad moją głową. Moja biblioteka ma także kopię! :)
MBM,
@ Bullmoose, co mówi Twierdzenie 1 tutaj, jest to, że TV (lub L1) jest związany z równością do która jest związana z równością do g_2 lub g_1 (minimalna suma błędów lub błąd typu II dla kontrolowanego typu I). Tu nie ma nierówności. Nierówności pojawiają się, gdy musisz przejść z L1 do Kullback. A1
robin girard
Niestety mam minimalne doświadczenie w teorii miar. mi się, że rozumiem czym są i , ale nie mam jasności co do . Powiedzmy, że mam dwie rozkłady Gaussa. Telewizor (lub L1) między nimi to Ale czym byłby ? Z definicji wygląda to tak: ...g1g2A1
12π|exp(x2/2σ12)σ1exp(x2/2σ22)σ2|dx
A1
12πmin(exp(x2/2σ12)σ1,exp(x2/2σ22)σ2)dx
MBM
... ale w jaki sposób odwzorowuje to na podstawie pierwszego punktu w twierdzeniu? (ν1+ν2)
MBM
1

Odpowiedź na twoje pierwsze pytanie: Tak, jeden minus całkowita odległość zmian jest dolną granicą sumy wskaźników błędu typu I + typ II. Ta dolna granica obowiązuje niezależnie od wybranego algorytmu testowania hipotez.

Uzasadnienie: odpowiedź masz na Math.SE daje standardową dowód tego faktu. Napraw test hipotez. Niech oznacza zbiór wyników, na których ten test odrzuci hipotezę zerową (taki zbiór musi zawsze istnieć). Następnie obliczenia w odpowiedzi Math.SE dowodzą dolnej granicy.A

(Ściśle mówiąc, ten tok rozumowania zakłada, że ​​test hipotezy jest procedurą deterministyczną. Ale nawet jeśli weźmie się pod uwagę procedury randomizowane, możliwe jest wykazanie, że nadal obowiązuje ta sama granica).

DW
źródło