W moich badaniach natrafiłem na następujący ogólny problem: mam dwie rozkłady i w tej samej domenie i dużą (ale skończoną) liczbę próbek z tych rozkładów. Próbki są niezależnie i identycznie rozmieszczone z jednego z tych dwóch rozkładów (chociaż rozkłady mogą być powiązane: na przykład Q może być mieszaniną P i niektórych innych rozkładów). Hipotezą zerową jest to, że próbki pochodzą z P , alternatywną hipotezą jest to, że próbek pochodzących z Q .P P Q
Staram się charakteryzować typu I i typu II błędów badanie próbki, znając rozkładów i . Szczególnie interesuje mnie w podskokach jeden błąd, biorąc pod uwagę inne, oprócz wiedzy i .
Zadałem pytanie na matematyce. Dotyczące związku odległości całkowitej zmienności między i do testowania hipotez i otrzymałem odpowiedź, którą zaakceptowałem. Ta odpowiedź ma sens, ale wciąż nie byłam w stanie skupić się na głębszym znaczeniu związku między odległością testowania całkowitej zmienności a testowaniem hipotez w związku z moim problemem. Postanowiłem więc przejść do tego forum.
Moje pierwsze pytanie brzmi: czy całkowita zmienność jest uzależniona od sumy prawdopodobieństw błędów typu I i typu II niezależnie od stosowanej metody testowania hipotez? Zasadniczo, o ile istnieje niezerowe prawdopodobieństwo, że próbka mogła zostać wygenerowana przez jeden z rozkładów, prawdopodobieństwo co najmniej jednego z błędów musi być niezerowe. Zasadniczo nie można uniknąć możliwości, że tester hipotez popełni błąd, bez względu na to, ile przetworzysz sygnału. A Total Variation ogranicza tę dokładną możliwość. Czy moje rozumowanie jest prawidłowe?
Istnieje również inna zależność między błędami typu I i II a leżącymi u ich podstaw rozkładami prawdopodobieństwa i : dywergencja KL . Zatem moje drugie pytanie brzmi: czy ograniczenie dywergencji KL ma zastosowanie tylko do jednej konkretnej metody testowania hipotez (wydaje się, że bardzo często dotyczy metody logarytmicznej ilorazu prawdopodobieństwa), czy można zastosować ją ogólnie we wszystkich metodach testowania hipotez? Jeśli ma zastosowanie we wszystkich metodach testowania hipotez, to dlaczego tak bardzo różni się on od granicy Całkowitej zmienności? Czy zachowuje się inaczej?Q
A moje podstawowe pytanie brzmi: czy istnieje określony zestaw okoliczności, w których powinienem użyć albo związanego, czy jest to wyłącznie kwestia wygody? Kiedy wynik powinien być uzyskany przy użyciu jednej powiązanej blokady przy użyciu drugiej?
Przepraszam, jeśli te pytania są trywialne. Jestem informatykiem (więc wydaje mi się, że to fantazyjny problem z dopasowaniem wzoru :).) Znam dość dobrze teorię informacji i mam również wykształcenie wyższe w zakresie teorii prawdopodobieństwa. Jednak dopiero zaczynam się uczyć tych wszystkich hipotez testujących. W razie potrzeby dołożę wszelkich starań, aby wyjaśnić moje pytania.
Odpowiedź na twoje pierwsze pytanie: Tak, jeden minus całkowita odległość zmian jest dolną granicą sumy wskaźników błędu typu I + typ II. Ta dolna granica obowiązuje niezależnie od wybranego algorytmu testowania hipotez.
Uzasadnienie: odpowiedź masz na Math.SE daje standardową dowód tego faktu. Napraw test hipotez. Niech oznacza zbiór wyników, na których ten test odrzuci hipotezę zerową (taki zbiór musi zawsze istnieć). Następnie obliczenia w odpowiedzi Math.SE dowodzą dolnej granicy.A
(Ściśle mówiąc, ten tok rozumowania zakłada, że test hipotezy jest procedurą deterministyczną. Ale nawet jeśli weźmie się pod uwagę procedury randomizowane, możliwe jest wykazanie, że nadal obowiązuje ta sama granica).
źródło