Myślę więc, że dobrze rozumiem podstawy prawdopodobieństwa częstokroć i analizy statystycznej (i tego, jak bardzo można je wykorzystać). W świecie częstokroć sensowne jest zadawanie takiego pytania, jak: „czy ten rozkład różni się od tego rozkładu”, ponieważ zakłada się, że rozkłady są rzeczywiste, obiektywne i niezmienne (przynajmniej dla danej sytuacji), i dlatego możemy ustalić jak prawdopodobne jest, że jedna próbka jest pobierana z rozkładu w kształcie innej próbki.
W bayesowskim spojrzeniu na świat dbamy tylko o to, czego oczekujemy, biorąc pod uwagę nasze wcześniejsze doświadczenia (nadal jestem nieco niejasny w tej części, ale rozumiem koncepcję aktualizacji bayesowskiej). Jeśli tak, to jak Bayesian może powiedzieć „ten zestaw danych różni się od tego zbioru danych”?
Na potrzeby tego pytania nie dbam o istotność statystyczną ani tym podobne, tylko o to, jak obliczyć różnicę. Równie interesują mnie rozkłady parametryczne i nieparametryczne.
źródło
Odpowiedzi:
Pomyśl o swoim oświadczeniu jako Frequentist i najpierw sprecyzuj go. Frequentist nie mógł powiedzieć, że „zestaw danych A różni się od zestawu danych B”, bez dalszego wyjaśnienia.
Najpierw musisz podać, co rozumiesz przez „inny”. Być może masz na myśli „mieć różne wartości średnie”. Z drugiej strony możesz mieć na myśli „mieć różne wariancje”. A może coś innego?
Następnie musisz określić, jakiego rodzaju testu byś użył, co zależy od tego, co uważasz za słuszne założenia dotyczące danych. Czy zakładasz, że oba zestawy danych są normalnie rozmieszczone w jakiś sposób? A może uważasz, że oba są rozpowszechniane w wersji beta? Albo coś innego?
Czy widzisz teraz, że druga decyzja jest podobna do priorytetów w statystykach bayesowskich? To nie tylko „moje wcześniejsze doświadczenie”, ale raczej to, w co wierzę, a to, w co wierzę moi rówieśnicy, są rozsądnymi założeniami dotyczącymi moich danych. (A Bayesianie mogą stosować jednolite priory, co popycha sprawy do obliczeń częstych.)
EDYCJA: W odpowiedzi na twój komentarz: następny krok jest zawarty w pierwszej decyzji, o której wspomniałem. Jeśli chcesz zdecydować, czy średnie dwóch grup są różne, przyjrzyj się rozkładowi różnicy średnich dwóch grup, aby sprawdzić, czy ten rozkład zawiera zero, czy nie, na pewnym poziomie pewności. Dokładnie, jak blisko zera liczysz jako zero i dokładnie, którą część (tylnej) dystrybucji, której używasz, określasz przez ciebie i pożądany poziom pewności.
Dyskusję na temat tych pomysłów można znaleźć w artykule Kruschke , który napisał również bardzo czytelną książkę Doing Bayesian Data Analysis , która zawiera przykład na stronach 307-309 „Czy różne grupy są równe?”. (Drugie wydanie: s. 468–472.) Prowadzi także blog na ten temat , zawierający pytania i odpowiedzi.
DALSZA EDYCJA: Twój opis procesu bayesowskiego również nie jest całkiem poprawny. Bayesianie dbają tylko o to, co mówią nam dane, w świetle tego, co wiemy niezależnie od danych. (Jak zauważa Kruschke, przeor niekoniecznie musi wystąpić przed danymi. To właśnie sugeruje to wyrażenie, ale tak naprawdę to nasza wiedza wykluczająca niektóre dane). To, co wiemy niezależnie od określonego zestawu danych, może być niejasne lub specyficzne i może być oparty na konsensusie, modelu leżącym u podstaw procesu generowania danych, lub może być jedynie wynikiem innego (niekoniecznie wcześniejszego) eksperymentu.
źródło
ten artykuł może być interesujący: http://arxiv.org/pdf/0906.4032v1.pdf
Daje ładne podsumowanie niektórych częstych i bayesowskich podejść do problemu dwóch próbek i omawia zarówno przypadki parametryczne, jak i nieparametryczne.
Może dodać coś do innych odpowiedzi, dając prosty przykład. Załóżmy, że masz dwa zestawy danych i y, w których każdy x i każdy y j ma wartość 0 lub 1 . W obu przypadkach zakłada się model Bernoulliego, więc każdy x i ∼ B e r n ( p ) i każdy y i ∼ B e r n ( q ) . Twój scenariusz testowania hipotez zarówno w ustawieniach częstych, jak i bayesowskich może być następujący:x y xi yj 0 1 xi∼Bern(p) yi∼Bern(q)
niekoniecznie równe.H1:p,q
Prawdopodobieństwa danych w każdym przypadku są następujące:
Poniżej : L 0 ( p ) = f ( x , y ; p ) = ∏ i p i ( 1 - p ) 1 - i ∏ j p j ( 1 - p ) 1 - jH0 L0(p)=f(x,y;p)=∏ipi(1−p)1−i∏jpj(1−p)1−j
Pod : l 1 ( p , q ) = f ( x , y , P , Q ) = Π I s I ( 1 - p ) 1 - i Π J Q J ( 1 - q ) 1 - jH1 L1(p,q)=f(x,y;p,q)=∏ipi(1−p)1−i∏jqj(1−q)1−j
(ponieważ poniżej ). Częstym podejściem do problemu może być wykonanie testu ilorazu wiarygodności, w którym obliczane są statystyki:H0q=p
Mam nadzieję, że to pomaga wraz z innymi odpowiedziami już opublikowanymi.
źródło
Biorąc pod uwagę dane, jak mocno naszym zdaniem 2 grupy nie pochodzą z tej samej populacji (H_1: nie pochodzą z tej samej populacji w porównaniu z H_0: pochodzą z tej samej populacji). Można to zrobić za pomocą testu t-bayesowskiego.
Złożoność służy do ustalenia, jak wiele uprzednich pokrywa się z jedną hipotezą. Dopasowanie służy do ustalenia, jak bardzo tylna pokrywa się z jedną hipotezą. W połączeniu możesz porównać hipotezy i wyrazić swoje późniejsze przekonanie, czy pochodzą one z tej samej populacji.
źródło