Moje doświadczenie dotyczy głównie uczenia maszynowego i starałem się dowiedzieć, co oznacza testowanie hipotezy bayesowskiej. Nie przeszkadza mi bayesowska interpretacja prawdopodobieństwa i znam ją w kontekście probabilistycznych modeli graficznych. Jednak mylę mnie to, co oznacza słowo „hipoteza” w kontekście wnioskowania statystycznego.
Wydaje mi się, że najczęściej mylę się ze słownictwem, do którego jestem przyzwyczajony w uczeniu maszynowym, w porównaniu do tego, co zwykle stosuje się w statystykach i wnioskowaniu.
W kontekście nauki nadzorowanej normalnie myślę o hipotezie jako o funkcji predykcyjnej, która odwzorowuje przykłady na etykiety, tj. . Wydaje mi się jednak, że termin hipoteza w czytanych przeze mnie odczytach nie ma tego samego znaczenia. Pozwól mi wkleić fragment czytanych odczytów:
Jeśli czytasz uważnie, mówi również:
istnieje inny model obserwowanych danych ...
gdyby używali słowa model. Dla mnie słowo model przypomina mi zestaw funkcji, w których wybraliśmy konkretną funkcję predykcyjną. tj. hipoteza klasy funkcji. Na przykład może być klasą hipotez funkcji kwadratowych (wielomian stopnia 2). Wydaje mi się jednak, że używają słowa model i hipotezy jako synonimów w tym wyciągu (gdzie dla mnie są to zupełnie inne słowa).
Następnie wspomina, że możemy postawić hipotezę priory (całkowicie rozsądną rzecz do zrobienia w otoczeniu bayesowskim):
możemy również scharakteryzować dane za pomocą aktualnej hipotezy:
i zaktualizuj nasze obecne przekonania, podając niektóre dane (i zasadę Baye'a):
Wydaje mi się jednak, że bardziej przyzwyczajam się do szacowania bayesowskiego konkretnego parametru (powiedzmy ) z klasy hipotez niż z całej klasy hipotez. Zasadniczo, ponieważ wydaje się, że te „hipotezy” nie są tymi samymi hipotezami z kontekstu uczenia maszynowego, do których jestem przyzwyczajony, wydaje mi się, że te hipotezy są bardziej podobne do określonego parametru niż do klasy hipotez.
W tym momencie byłem przekonany, że „hipoteza” oznaczała to samo, co w funkcji predykcyjnej (na przykład parametryzowanej parametrem ), ale myślę, że się myliłem ...
Żeby moje zamieszanie było jeszcze gorsze, później te same lektury posunęły się naprzód, aby określić konkretną „hipotezę” dla każdego zaobserwowanego przykładu treningu. Pozwól mi wkleić wyciąg z tego, co mam na myśli:
powodem tego jest fakt, że jeśli interpretuję hipotezę jako parametr, to dla mnie nie ma sensu określać konkretnego parametru dla każdej wartości próbki, którą widzimy. W tym momencie doszedłem do wniosku, że tak naprawdę nie wiedziałem, co mają na myśli hipotezę, więc zadałem to pytanie.
Jednak nie poddałem się w pełni, zbadałem, co hipoteza oznacza w statystykach dla osób często odwiedzających i znalazłem następujący film z akademii chana . Ten film ma dla mnie wiele sensu (być może jesteś częstym!) . Wydaje się jednak, że uzyskują wiązkę danych (jak jakiś „zestaw próbek”) i na podstawie właściwości zestawu próbek decydują, czy przyjąć, czy odrzucić hipotezę zerową o danych. Jednak w kontekście bayesowskim, które czytam, wydaje mi się, że dla każdego obserwowanego wektora [punktowego] „etykietują go” hipotezą za pomocą „testu ilorazu wiarygodności”:
Sposób, w jaki przypisują hipotezę do każdej próbki danych, wydaje się nawet nadzorowanym ustawieniem uczenia się, jeśli dołączamy etykietę do każdego zestawu treningowego. Nie sądzę jednak, aby robili to w tym kontekście. Co oni robią? Co to znaczy przypisać hipotezę do każdej próbki danych? Jakie jest znaczenie hipotezy? Co oznacza słowo model?
Zasadniczo, po tym długim wyjaśnieniu mojego zamieszania, czy ktoś wie, co w tym kontekście oznacza testowanie bayesowskie?
Jeśli potrzebujesz wyjaśnień lub czegokolwiek, aby poprawić moje pytanie lub aby pytanie miało sens, chętnie pomogę :)
W poszukiwaniu odpowiedzi znalazłem kilka użytecznych rzeczy związanych z testowaniem hipotez statystycznych:
Ten odnosi się do dobrego wprowadzenia do tematu, jeśli pochodzisz z CS (jak ja):
Jakie jest dobre wprowadzenie do testowania hipotez statystycznych dla informatyków?
W pewnym momencie zapytałem o „parametry domyślne” (które powinienem był zdefiniować, co miałem na myśli. Myślałem, że to standardowy termin, ale tak nie jest, więc tutaj się nim zajmę) i myślę, że naprawdę miałem na myśli to, jak określasz parametry dla każdej twojej hipotezy. Na przykład, jak zdecydować, jaka jest twoja hipoteza zerowa i jakie są jej parametry. Jest z tym związane pytanie:
źródło
Odpowiedzi:
źródło
Doskonałe pytanie. Myślę, że twoje zamieszanie może wynikać z niektórych podstawowych różnic między perspektywami „częstych” i „bayesowskich”. Mam duże doświadczenie z pierwszym i jestem nowy w późniejszym, więc próba kilku prostych obserwacji może mi również pomóc. Zredagowałem twoje pytanie, aby wyjaśnić kilka różnic - przynajmniej tak, jak je rozumiem. Mam nadzieję, że nie masz nic przeciwko! Jeśli coś jest nie tak, możesz ponownie edytować swoje pytanie lub dodać komentarz do tej odpowiedzi.
1) Ryzykując, że zabrzmi to zbyt elementarnie: modelem jest każde stwierdzenie, które próbuje wyjaśnić rzeczywistość, takie jak: „Gdybym jadł naleśniki na śniadanie, musiałby to być wtorek”. Jako taki model jest hipotezą. Słynny cytat George'a Boxa: „Wszystkie modele są złe, niektóre modele są przydatne”. Aby model był użyteczny, musi istnieć jakiś sposób na przetestowanie go. Wprowadź koncepcję konkurujących hipotez i odpowiedz na jedno z twoich pytań. Sugerowałbym, że „... w kontekście wnioskowania statystycznego” hipoteza jest dowolnym modelem, który może być użyteczny i może zostać przetestowany matematycznie. Testowanie hipotez jest więc środkiem do podjęcia decyzji, czy model jest przydatny. Podsumowując, hipoteza jest rozważanym modelem. Mogą to być różne wartości parametrów tej samej funkcji lub różne funkcje.
2) Twoje wideo Kahna jest przykładem tego, co Bayesian nazywa „częstym” podejściem do testowania hipotez, więc mogło cię pomylić, gdy próbujesz zastosować go do notatek z wykładu, które są bayesowskie. Próbowałem znaleźć proste rozróżnienie między zastosowaniem tych dwóch podejść (co może być niebezpieczne). Myślę, że rozumiem rozróżnienie filozoficzne dość dobrze. Z tego, co widziałem, „Frequentist” zakłada losowy składnik danych i sprawdza, czy prawdopodobne jest, że dane otrzymają parametry nieprzypadkowe. „Bayesian” zakłada, że dane są stałe i określa najbardziej prawdopodobną wartość parametrów losowych. Ta różnica prowadzi do różnych metod testowania.
W testowaniu hipotez „Frequentist” modelem, który może być przydatny, jest ten, który tłumaczy pewien efekt, a zatem porównuje się go z „hipotezą zerową” - modelem braku efektu. Podjęto próbę stworzenia użytecznego modelu, który wyklucza się wzajemnie z modelem bez efektu. Test polega na prawdopodobieństwie obserwacji danych przy założeniu braku efektu. Jeśli okaże się, że prawdopodobieństwo to jest niskie, hipoteza zerowa zostaje odrzucona, a alternatywa pozostaje wszystkim, co pozostało. (Zauważ, że purysta nigdy „nie zaakceptuje” hipotezy zerowej, tylko „nie odrzuci”. Może to brzmieć jak anioły tańczące na czubku szpilki, ale rozróżnienie jest fundamentalne filozoficzne) Statystyka wprowadzająca zwykle zaczyna się od tego, co może być najprostszym przykładem: „Dwie grupy są różne”.tak duże lub większe, jak zmierzono w losowym eksperymencie, biorąc pod uwagę, że nie różnią się od siebie. Jest to zwykle test t, w którym hipoteza zerowa mówi, że różnica średnich wynosi zero. Zatem parametr jest średnią przy stałej wartości zero.
Bayesian mówi: „Chwileczkę, zrobiliśmy te pomiary i są one różne, więc jak prawdopodobne?” Obliczają prawdopodobieństwo dla każdej wartości (teraz) losowego parametru i wybierają ten, który jest najwyższy jako najbardziej prawdopodobny. W pewnym sensie każda możliwa wartość parametru jest osobnym modelem. Ale teraz potrzebują sposobu, aby podjąć decyzję, czy model o najwyższym prawdopodobieństwie jest na tyle inny, że ma znaczenie. Dlatego w notatkach z wykładu wprowadzono funkcję kosztów. Aby podjąć dobrą decyzję, konieczne jest pewne założenie o konsekwencjach podjęcia złej decyzji.
3) „Co to znaczy przypisać hipotezę do każdej próbki danych?” Nie sądzę, że są. Uważaj, co należy rozumieć przez „punkt próbny”. Sądzę, że odnoszą się one do konkretnego wektora próbki i chcą wiedzieć, jak prawdopodobne jest prawdopodobieństwo każdej hipotezy dla wszystkich wektorów próbek w przestrzeni próbki. Równania (14) i (15) pokazują, jak porównać dwie hipotezy dla konkretnego wektora próbki. Upraszczają więc ogólny argument porównywania wielu hipotez, pokazując, jak porównać tylko dwie.
źródło
Powiedz, że masz dane z zestawu pól. Dane składają się z długości (L), szerokości (W), wysokości (H) i objętości (V).
Jeśli nie wiemy dużo o pudełkach / geometrii, możemy wypróbować model:
Ten model ma trzy parametry (a, b, c), które można zmieniać, a także współczynnik błędu / kosztu (e) opisujący, jak dobrze hipoteza pasuje do danych. Każda kombinacja wartości parametrów byłaby uważana za inną hipotezę. Wybrana „domyślna” wartość parametru to zwykle zero, co w powyższym przykładzie odpowiadałoby „brakowi związku” między V i L, W, H.
Ludzie testują tę „domyślną” hipotezę, sprawdzając, czy e przekracza pewną wartość odcięcia, zwykle obliczając wartość p przy założeniu normalnego rozkładu błędu wokół dopasowania modelu. Jeśli ta hipoteza zostanie odrzucona, wówczas znajdą kombinację parametrów a, b, c, która maksymalizuje prawdopodobieństwo, i przedstawiają tę najbardziej prawdopodobną hipotezę. Jeśli są bayesowskie, mnożą prawdopodobieństwo przez pierwszeństwo dla każdego zestawu wartości parametrów i wybierają rozwiązanie, które maksymalizuje prawdopodobieństwo późniejsze.
Oczywiście strategia ta nie jest optymalna, ponieważ model zakłada addytywność i nie zauważy, że poprawna hipoteza to:
Edycja: @Pinocchio
Być może ktoś nie zgodził się z twierdzeniem, że testowanie hipotez nie jest optymalne, gdy nie ma racjonalnego powodu, aby wybrać jedną / kilka funkcji (lub, jak to ująłeś: „klasy hipotez”) spośród nieskończenie wielu możliwych. Oczywiście jest to trywialnie prawdziwe i „optymalne” może być użyte w ograniczonym sensie „najlepszego dopasowania, biorąc pod uwagę dostarczoną funkcję kosztów i opcje”. Ten komentarz znalazł się w mojej odpowiedzi, ponieważ nie podobało mi się, jak kwestia specyfikacji modelu została opisana w notatkach z zajęć. Jest to główny problem, przed którym stoją większość pracowników naukowych, dla których nie ma algorytmu.
Co więcej, nie mogłem zrozumieć wartości p, testowania hipotez itp., Dopóki nie zrozumiałem historii, więc być może to również pomoże. Istnieje wiele źródeł nieporozumień związanych z częstym testowaniem hipotez (nie znam tak dobrze historii wariantu bayesowskiego).
Istnieje coś, co pierwotnie nazywano „testowaniem hipotez” w sensie Neymana-Pearsona, „testowaniem istotności” opracowanym przez Ronalda Fishera, a także źle zdefiniowaną, nigdy właściwie nieuzasadnioną „hybrydą” tych dwóch strategii szeroko stosowanych w naukach (które może być swobodnie określany przy użyciu powyższego terminu lub „testowania znaczenia hipotezy zerowej”). Chociaż nie poleciłbym traktować strony wikipedii jako wiarygodnej, wiele źródeł omawiających te problemy można znaleźć tutaj . Niektóre główne punkty:
Zastosowanie „domyślnej” hipotezy nie jest częścią oryginalnej procedury testowania hipotezy, a raczej użytkownik powinien wykorzystać wcześniejszą wiedzę do ustalenia rozważanych modeli. Nigdy nie widziałem wyraźnej rekomendacji zwolenników tego modelu, co robić, jeśli nie mamy konkretnego powodu, aby wybrać dany zestaw hipotez do porównania. Często mówi się, że takie podejście nadaje się do kontroli jakości, gdy znane są tolerancje do porównania niektórych pomiarów.
Nie ma alternatywnej hipotezy w paradygmacie „testowania istotności” Fishera, jedynie hipoteza zerowa, która może zostać odrzucona, jeśli zostanie uznana za mało prawdopodobną z uwagi na dane. Z mojej lektury sam Fisher był jednoznaczny w stosowaniu domyślnych hipotez zerowych. Nigdy nie widziałem, żeby komentował tę sprawę wyraźnie, jednak z pewnością nie zalecił, aby była to jedyna hipoteza zerowa.
Zastosowanie domyślnej zerowej hipotezy jest czasami interpretowane jako „nadużycie” testowania hipotez, ale jest kluczowe dla wspomnianej popularnej metody hybrydowej. Argument jest taki, że ta praktyka jest często „bezużytecznym wstępem”:
Hipoteza zerowa testująca kontrowersje w psychologii. David H Krantz. Journal of American Statistics Association; Grudzień 1999; 94, 448; 1372–1381
Film z Akademii Chana jest przykładem tej hybrydowej metody i jest winny popełnienia błędu wskazanego w tym cytacie. Z informacji dostępnych w tym filmie możemy jedynie wywnioskować, że wstrzyknięte szczury różnią się od nie wstrzykniętych, podczas gdy wideo twierdzi, że możemy stwierdzić, że „lek zdecydowanie ma pewien efekt”. Trochę refleksji doprowadziłoby nas do wniosku, że być może badane szczury były starsze niż nie wstrzyknięte itp. Musimy wykluczyć prawdopodobne alternatywne wyjaśnienia, zanim zaczniemy twierdzić, że istnieją dowody na naszą teorię. Im mniej szczegółowe przewidywanie teorii , tym trudniej to osiągnąć.
Edycja 2:
Być może skorzystanie z przykładu z notatek z diagnozy medycznej pomoże. Powiedzmy, że pacjent może być „normalny” lub „przełomem nadciśnieniowym”.
Wcześniej wiemy, że tylko 1% ludzi przeżywa kryzys nadciśnieniowy. Ludzie w kryzysie nadciśnieniowym mają skurczowe ciśnienie krwi, które ma normalny rozkład ze średnią = 180 i sd = 10. Tymczasem normalni ludzie mają ciśnienie krwi z rozkładu normalnego ze średnią = 120, sd = 10. Koszt osądu osoby normalnej, gdy jest ona równa zero, koszt braku diagnozy wynosi 1, a koszt z powodu skutków ubocznych leczenia wynosi 0,2, niezależnie od tego, czy znajduje się w kryzysie, czy nie. Następnie następujący kod R oblicza próg (eta) i iloraz prawdopodobieństwa. Jeśli współczynnik prawdopodobieństwa jest większy niż próg, decydujemy się leczyć, jeśli jest on niższy niż:
W powyższym scenariuszu próg eta = 15,84. Jeśli wykonamy trzy pomiary ciśnienia krwi i uzyskamy 139.9237, 125.2278, 190.3765, wówczas współczynnik prawdopodobieństwa wynosi 27,6 na korzyść H1: pacjent w kryzysie nadciśnieniowym. Ponieważ 27,6 jest większy niż próg, który wybralibyśmy. Wykres pokazuje normalną hipotezę w kolorze zielonym i nadciśnienie w kolorze czerwonym. Pionowe czarne linie wskazują wartości obserwacji.
źródło