Próbuję zrozumieć rozumowanie, wybierając konkretne podejście testowe, gdy mamy do czynienia z prostym testem A / B - (tj. Dwie odmiany / grupy z odpowiedzią binarną (przekształconą lub nie). Jako przykład wykorzystam poniższe dane
Version Visits Conversions
A 2069 188
B 1826 220
Najlepsza odpowiedź tutaj jest świetna i mówi o niektórych podstawowych założeniach testów kwadratowych z, ti chi. Co jednak wydaje mi się mylące, że różne zasoby online będą cytować różne podejścia i pomyślisz, że założenia podstawowego testu A / B powinny być prawie takie same?
- Na przykład w tym artykule zastosowano wynik Z :
- W tym artykule zastosowano następującą formułę (której nie jestem pewien, czy różni się ona od obliczeń zscore?):
- Ten artykuł odnosi się do testu t (str. 152):
Jakie argumenty można przedstawić na korzyść tych różnych podejść? Dlaczego ktoś miałby preferencje?
Aby dodać jeszcze jednego kandydata, powyższą tabelę można przepisać jako tabelę awaryjności 2x2, w której można zastosować dokładny test Fishera (p5)
Non converters Converters Row Total
Version A 1881 188 2069
Versions B 1606 220 1826
Column Total 3487 408 3895
Ale zgodnie z tym wątkiem dokładny test Fishera powinien być stosowany tylko z próbkami o mniejszych rozmiarach (co to jest odcięcie?)
A potem są sparowane testy tiz, test f (i regresja logistyczna, ale na razie chcę to pominąć) .... Czuję, że tonę w różnych podejściach testowych i po prostu chcę móc zrób jakiś argument za różnymi metodami w tym prostym przypadku testowym A / B.
Korzystając z przykładowych danych, otrzymuję następujące wartości p
https://vwo.com/ab-split-test-ssenceance-calculator/ daje wartość p wynoszącą 0,001 (wynik Z)
http://www.evanmiller.org/ab-testing/chi-squared.html (przy użyciu testu chi kwadrat) daje wartość p wynoszącą 0,00259
A w R
fisher.test(rbind(c(1881,188),c(1606,220)))$p.value
daje wartość p 0,002785305
Sądzę, że wszystkie są bardzo blisko ...
W każdym razie - po prostu mam nadzieję na zdrową dyskusję na temat tego, jakie podejścia zastosować w testach online, w których wielkości próbek są zwykle w tysiącach, a współczynniki odpowiedzi często wynoszą 10% lub mniej. Mój żołądek mówi mi, żebym użył chi-kwadrat, ale chcę być w stanie odpowiedzieć dokładnie, dlaczego wybrałem to na wiele innych sposobów.
Odpowiedzi:
Używamy tych testów z różnych powodów i w różnych okolicznościach.
z z zz -test. Test zakłada, że nasze obserwacje są niezależne od rozkładu normalnego z nieznaną średnią i znaną wariancją. Test jest używany przede wszystkim, gdy mamy dane ilościowe. (tj ciężary gryzoni, wiek osób, skurczowego ciśnienia tętniczego, etc.), jednak -tests może być również używany, gdy zainteresowany proporcjach. (tj. odsetek osób, które śpią co najmniej osiem godzin itp.)z z z
t t t zt -test. Test zakłada, że nasze obserwacje są niezależne od rozkładu normalnego o nieznanej średniej i nieznanej wariancji. Zauważ, że dzięki testowi nie znamy wariancji populacji. Jest to o wiele bardziej powszechne niż znajomość wariancji populacji, więc test jest na ogół bardziej odpowiedni niż test , ale praktycznie nie będzie między nimi niewielkiej różnicy, jeśli wielkość próby jest duża.t t t z
Z - i -tests Twoja hipoteza alternatywna będzie, że średnia populacji (lub odsetek populacji) jednej grupy albo nie jest równy, mniejszy lub większy niż średnia populacji (lub część) lub drugiej grupy. Będzie to zależeć od rodzaju analizy, którą chcesz przeprowadzić, ale twoje hipotezy zerowe i alternatywne bezpośrednio porównują średnie / proporcje z dwóch grup.tz t
Test chi-kwadrat. Podczas gdy testy i dotyczą danych ilościowych (lub proporcji w przypadku ), testy chi-kwadrat są odpowiednie dla danych jakościowych. Ponownie zakłada się, że obserwacje są od siebie niezależne. W takim przypadku nie szukasz konkretnego związku. Twoja hipoteza zerowa jest taka, że nie istnieje związek między zmienną pierwszą a zmienną drugą. Twoja alternatywna hipoteza jest taka, że związek istnieje. Nie daje to szczegółowych informacji na temat tego, w jaki sposób ta relacja istnieje (tj. W jakim kierunku idzie relacja), ale dostarczy dowodów, że istnieje (lub nie istnieje) relacja między twoją niezależną zmienną a twoimi grupami.t zz t z
Dokładny test Fishera. Wadą testu chi-kwadrat jest to, że jest asymptotyczny. Oznacza to, że wartość jest dokładna dla bardzo dużych próbek. Jeśli jednak twoje próbki są małe, wartość może nie być całkiem dokładna. W związku z tym dokładny test Fishera pozwala dokładnie obliczyć wartość danych i nie polegać na przybliżeniach, które będą słabe, jeśli próby będą małe.p pp p p
Wciąż omawiam rozmiary próbek - różne odniesienia dadzą ci różne dane, kiedy twoje próbki będą wystarczająco duże. Po prostu znajdę renomowane źródło, przejrzę ich regułę i zastosuję ich regułę, aby znaleźć test, który chcesz. Mógłbym „rozejrzeć się”, że tak powiem, dopóki nie znajdziesz reguły, którą „lubisz”.
Ostatecznie test, który wybierzesz, powinien opierać się na: a) wielkości próbki ib) jakiej formie chcesz przyjąć swoje hipotezy. Jeśli szukasz konkretnego efektu ze swojego testu A / B (na przykład, moja grupa B ma wyższe wyniki testów), a następnie chciałbym zdecydować się na -test lub -test oczekiwaniu próbki wielkości i wiedzy o populacji zmienność. Jeśli chcesz pokazać, że relacja po prostu istnieje (na przykład moja grupa A i grupa B różnią się w zależności od zmiennej niezależnej, ale nie dbam o to, która grupa ma wyższe wyniki), to chi-kwadrat lub dokładny test Fishera to odpowiednie, w zależności od wielkości próbki.tz t
Czy to ma sens? Mam nadzieję że to pomoże!
źródło
W przypadku testu 3-drogowego zwykle używasz ANOVA zamiast 3 osobnych testów. Przed wielokrotnym testowaniem sprawdź również poprawkę Bonferroni. Proszę użyć tego https://www.google.com/search?q=testing+multiple+means&rlz=1C1CHBD_enIN817IN817&oq=testing+multiple+means+&aqs=chrome..69i57j69i69j69i60l3j69i61j0.3564j0ch7&s=id
źródło