Próbuję robić A / B testowania Bayesa sposób, jak w probabilistyczny Programowanie dla hakerów i Bayesa testów A / B . Oba artykuły zakładają, że decydent decyduje, który z wariantów jest lepszy, wyłącznie na podstawie prawdopodobieństwa pewnego kryterium, np. , dlatego A jest lepsze. Prawdopodobieństwo to nie dostarcza żadnych informacji na temat tego, czy ilość danych była wystarczająca do wyciągnięcia z nich jakichkolwiek wniosków. Nie jest więc dla mnie jasne, kiedy zatrzymać test.
Załóżmy, że istnieją dwa binarne RV, i B , i chcę oszacować, jak prawdopodobne jest to, że p A > p B i p A - p Bna podstawie obserwacjiAiB. Dodatkowo załóżmy, żeboczne tylnepAipBsą dystrybuowane w wersji beta.
Ponieważ mogę znaleźć parametry dla p A i p B , mogę próbkować tylne i oszacować P ( p A > p B | dane ) . Przykład w python:
import numpy as np
samples = {'A': np.random.beta(alpha1, beta1, 1000),
'B': np.random.beta(alpha2, beta2, 1000)}
p = np.mean(samples['A'] > samples['B'])
Mógłbym uzyskać na przykład . Teraz chciałbym mieć coś w rodzaju P ( p A > p B | data ) = 0,95 ± 0,03 .
Badałem wiarygodne interwały i czynniki Bayesa, ale nie mogę zrozumieć, jak je obliczyć dla tego przypadku, jeśli w ogóle mają one zastosowanie. Jak mogę obliczyć te dodatkowe statystyki, aby mieć dobre kryterium zakończenia?
źródło
Odpowiedzi:
Cieszę się, że wspomniałeś o tym przykładzie, ponieważ jeden projekt, nad którym pracuję, polega na napisaniu całego rozdziału dotyczącego testowania Bayesian A / B.
W miarę pozyskiwania coraz większej ilości danych rozkład ten zbiega się z rzeczywistym wzrostem względnym, można powiedzieć, że rozkład się stabilizuje. W tym miejscu sugeruję zastanowienie się nad zakończeniem eksperymentu. Gdy wydaje się, że ta dystrybucja „uspokaja się” i możemy czuć się pewnie co do wzrostu, a następnie zakończ eksperyment.
źródło
Eksperymentowałem z sposobami na zatrzymanie testu Bayesian A / B i masz rację - nie ma aż tak wielu oczywistych sposobów na googlowanie. Najbardziej podoba mi się metoda oparta na precyzji, oparta na tym: http://doingbayesiandataanalysis.blogspot.com/2013/11/optional-stopping-in-data-collection-p.html . Nie znalazłem jednak dużo literatury matematycznej na ten temat, więc teraz jest to po prostu dobra heurystyka.
źródło
Wydaje się, że istnieją dwa główne podejścia do podejmowania decyzji w testach Bayesian A / B. Pierwszy oparty jest na artykule Johna Kruschke z Indiana University (K. Kruschke, Bayesian Estimation zastępuje test t, Journal of Experimental Psychology: General, 142, 573 (2013)). Reguła decyzyjna zastosowana w tym artykule oparta jest na koncepcji Regionu Praktycznej Równoważności (LINY).
Inną możliwością jest zastosowanie koncepcji oczekiwanej straty. Został zaproponowany przez Chrisa Stucchio (C. Stucchio, Bayesian A / B Testing at VWO). To inne podejście, które rozważę.
Więcej informacji można znaleźć w tym poście na blogu: Bayesian A / B Testing: przewodnik krok po kroku . Zawiera także niektóre fragmenty kodu w języku Python, które w większości oparte są na projekcie Python hostowanym na Github .
źródło