Mam dwie próbki ( w obu przypadkach). Średnie różnią się o około dwa razy tyle, ile zebrane standardowe. dev. Wynikowa wartość wynosi około 10. Chociaż dobrze wiedzieć, że ostatecznie wykazałem, że średnie nie są takie same, wydaje mi się, że wynika to z dużej n. Patrząc na histogramy danych, z pewnością nie uważam, że tak mała wartość p jest naprawdę reprezentatywna dla danych i, szczerze mówiąc, nie czuję się komfortowo, cytując ją. Prawdopodobnie zadaję złe pytanie. Myślę, że: ok, środki są różne, ale czy to naprawdę ma znaczenie, ponieważ dystrybucje w znacznym stopniu się pokrywają?T.
Czy to jest przydatne do testowania bayesowskiego? Jeśli tak, to gdzie jest dobre miejsce do rozpoczęcia, odrobina googlingu nie przyniosła nic użytecznego, ale nie mogę zadać właściwego pytania. Jeśli to źle, czy ktoś ma jakieś sugestie? Czy jest to po prostu punkt do dyskusji w przeciwieństwie do analizy ilościowej?
źródło
Odpowiedzi:
Niech oznacza średnią z pierwszej populacji, a oznacza średnią z drugiej populacji. Wydaje się, że użyłeś do dwóch prób -test do testowania, czy . Znaczący wynik oznacza, że , ale różnica wydaje się być mała, aby miała znaczenie dla twojej aplikacji.μ 2 t μ 1 = μ 2 μ 1 ≠ μ 2μ1 μ2 t μ1=μ2 μ1≠μ2
To, co spotkałeś, to fakt, że statystycznie znaczący często może być czymś innym niż znaczącym dla aplikacji . Chociaż różnica może być istotna statystycznie, może nadal nie mieć znaczenia .
Testy bayesowskie nie rozwiążą tego problemu - nadal po prostu dojdziesz do wniosku, że istnieje różnica.
Może być jednak wyjście. Na przykład w przypadku jednostronnej hipotezy możesz zdecydować, że jeśli jest jednostek większe niż to byłaby to znacząca różnica, która jest wystarczająco duża, aby mieć znaczenie dla twojej aplikacji. Δ μ 2μ1 Δ μ2
W takim przypadku sprawdziłbyś, czy zamiast czy . -statistic (przy założeniu równych wariancji) to w tym przypadku jest gdzie jest zbiorczym oszacowaniem odchylenia standardowego. Zgodnie z hipotezą zerową, to jest statystyka -distributed z stopni swobody.μ 1 - μ 2 = 0 t T = ˉ x 1 - ˉ x 2 - Δμ1−μ2≤Δ μ1−μ2=0 t
Łatwym sposobem przeprowadzenia tego testu jest odjęcie od twoich obserwacji od pierwszej populacji, a następnie przeprowadzenie regularnego jednostronnego dwustronnego testu .Δ t
źródło
Prawidłowe jest porównanie kilku podejść, ale nie w celu wybrania tego, które faworyzuje nasze pragnienia / przekonania.
Moja odpowiedź na twoje pytanie brzmi: możliwe jest, że dwie dystrybucje pokrywają się, gdy mają różne środki, co wydaje się być twoim przypadkiem (ale musielibyśmy zobaczyć twoje dane i kontekst, aby podać bardziej precyzyjną odpowiedź).
Zilustruję to za pomocą kilku podejść do porównania normalnych środków .
1. testt
Rozważ dwie symulowane próbki o rozmiarze z i , a następnie wartość wynosi około jak w twoim przypadku (patrz kod R poniżej).70 N(10,1) N(12,1) t 10
Jednak gęstości wykazują znaczne nakładanie się. Pamiętaj jednak, że testujesz hipotezę o środkach, które w tym przypadku są wyraźnie różne, ale ze względu na wartość nakładają się na siebie gęstości.σ
2. Prawdopodobieństwo profiluμ
Definicja prawdopodobieństwa i prawdopodobieństwa profilu znajduje się w punktach 1 i 2 .
W tym przypadku prawdopodobieństwo profilu próbki o wielkości i średniej próbki wynosi po prostu .μ n x¯ Rp(μ)=exp[−n(x¯−μ)2]
W przypadku danych symulowanych można je obliczyć w R w następujący sposób
Jak widać przedziały prawdopodobieństwa i nie pokrywają się na żadnym rozsądnym poziomie.μ1 μ2
3. tylnego używając Jeffreys przedμ
Rozważmy Jeffreys przed o(μ,σ)
Tylne dla każdego zestawu danych można obliczyć w następujący sposóbμ
Ponownie, przedziały wiarygodności środków nie pokrywają się na żadnym rozsądnym poziomie.
Podsumowując, można zobaczyć, w jaki sposób wszystkie te podejścia wskazują na znaczną różnicę środków (co jest głównym przedmiotem zainteresowania), pomimo nakładania się rozkładów.
Sądząc z twoich obaw związanych z nakładaniem się gęstości, kolejną interesującą wartością może być , prawdopodobieństwo, że pierwsza zmienna losowa jest mniejsza niż druga zmienna. Ilość tę można oszacować nieparametrycznie, jak w tej odpowiedzi . Pamiętaj, że nie ma tu żadnych założeń dystrybucyjnych. W przypadku danych symulowanych estymator ten wynosi , co pokazuje pewne nakładanie się w tym sensie, podczas gdy średnie są znacznie różne. Proszę spojrzeć na kod R pokazany poniżej.0,8823825P(X<Y) 0.8823825
Mam nadzieję, że to pomoże.
źródło
Odpowiedź na właściwe pytanie
Każdy test, który pyta, czy środki grupy są różne, przy prawidłowym działaniu powie ci, czy środki są różne. Nie powie ci, że rozkłady samych danych są różne, ponieważ jest to inne pytanie. To pytanie z pewnością zależy od tego, czy środki są różne, ale także od wielu innych rzeczy, które można (niepełnie) podsumować jako wariancję, przekrzywienie i kurtozę.
Prawidłowo zauważasz, że pewność, gdzie znajdują się średnie, zależy od ilości danych, które musisz je oszacować, więc posiadanie większej ilości danych pozwoli ci dostrzec średnie różnice w prawie pokrywających się rozkładach. Ale zastanawiasz się, czy
Rzeczywiście nie jest, przynajmniej nie bezpośrednio. I to jest z założenia. Jest reprezentatywna (w przybliżeniu) pewności, że konkretna para przykładowych statystyk danych (a nie samych danych) jest inna.
Jeśli chcesz przedstawić same dane w bardziej formalny sposób niż po prostu pokazywanie histogramów i testowanie ich momentów, być może para wykresów gęstości może być pomocna. Zależy to raczej od argumentu, którego używasz do testu.
Wersja bayesowska
Pod tymi wszystkimi względami „testy” Bayesa i testy T będą zachowywać się w ten sam sposób, ponieważ próbują zrobić to samo. Jedyne zalety, które mogę wymyślić, stosując podejście bayesowskie, to: a) łatwość wykonania testu pozwalającego na możliwe różne wariancje dla każdej grupy oraz b) skupienie się na oszacowaniu prawdopodobnej wielkości różnicy średnich zamiast znajdować wartość p dla jakiegoś testu różnicy. To powiedziawszy, te zalety są dość niewielkie: np. W b) zawsze można zgłosić przedział ufności dla różnicy.
Znaki cudzysłowu powyżej „testów” są celowe. Z pewnością możliwe jest wykonanie testu hipotezy bayesowskiej, a ludzie to robią. Sugerowałbym jednak, że przewaga komparatywna tego podejścia polega na budowaniu wiarygodnego modelu danych i przekazywaniu jego ważnych aspektów z odpowiednim poziomem niepewności.
źródło
Przede wszystkim nie jest to problem polegający na testowaniu częstych. Problem tkwi w hipotezie zerowej, że średnie są dokładnie równe. Dlatego jeśli populacje różnią się pod względem środków o jakąkolwiek niewielką ilość, a wielkość próby jest wystarczająco duża, szansa na odrzucenie tej hipotezy zerowej jest bardzo wysoka. Dlatego wartość p dla twojego testu okazała się bardzo mała. Sprawcą jest wybór hipotezy zerowej. Wybierz d> 0 i przyjmij hipotezę zerową, że średnie różnią się o mniej niż d wartością bezwzględną o mniej niż d. Wybierasz d, aby prawdziwa różnica była wystarczająco duża, aby odrzucić. Twój problem zniknął. Testy bayesowskie nie rozwiążą twojego problemu, jeśli nalegasz na zerową hipotezę o dokładnej równości środków.
źródło