Sprawdź poprawność internetowych testów A / B, ponownie uruchamiając eksperyment - czy to jest prawidłowe?

Pewnego dnia podczas webinarium przeprowadzonego przez firmę testującą A / B ich rezydent „Data Scientist” wyjaśnił, że powinieneś zweryfikować swoje wyniki, ponownie uruchamiając eksperyment. Założeniem było, że jeśli wybierzesz 95% pewności, istnieje 5% (1/20) szansa na fałszywie pozytywny wynik. Jeśli ponownie uruchomisz eksperyment z tymi samymi ograniczeniami, teraz jest 1/400 (zakładam, że ustalili to jako 0,05 ^ 2 = 1/400)

Czy to jest prawidłowe oświadczenie? (tj. „Uruchom dwa razy, dwa statystycznie ważne zwycięstwa = 1/400 prawdopodobieństwa fałszywie dodatniego”)? Czy lepszym podejściem byłoby zwiększenie poziomu istotności?

Z biznesowego punktu widzenia moim problemem jest ponowne uruchomienie eksperymentu, narażasz więcej użytkowników na gorszą stronę (leczenie), a tym samym tracisz potencjalną sprzedaż.

probability hypothesis-testing statistical-significance ab-test Jan
źródło

Cześć John, witamy w Stats.SE! Jeśli jesteś zadowolony z którejkolwiek z odpowiedzi, powinieneś zaakceptować jedną z nich lub udzielić bardziej szczegółowych pytań na temat tego, czego szukasz.

Christopher Aden

John, podejrzewam, że prawdziwy problem dotyczy kontekstu. Rzadko zdarza się, aby ludzie przeznaczali zasoby na naukę tylko jednej rzeczy na raz: nie bez powodu chcą jak najlepiej wykorzystać swoje dane. Oznacza to, że każdy zestaw danych będzie używany do wielu testów. Co więcej, czasami testy odbywają się post hoc : były inspirowane wzorami widocznymi w danych. W takich przypadkach testy faktycznie nie mają pożądanego 95% (lub cokolwiek innego) zaufania, a replikacja jest niezbędna. Więc: co dokładnie rozumiesz przez „eksperyment”? Odpowiedź zależy od tego małego szczegółu!

whuber

Informacje na temat powtórzeń eksperymentu i wartości istotności można znaleźć w tym komiksie XKCD : xkcd.com/882 Po przeczytaniu tego, sprawdź komentarz whubera powyżej.

Lucas Gallindo

whuber: przepraszam za brak szczegółów, odnoszę się do optymalizacji witryny, więc przykładowym eksperymentem byłoby przetestowanie dwóch wersji mojej strony głównej, z podziałem użytkowników 50/50.

John

Odpowiedzi:

Ignorując w tej chwili prawdopodobieństwo fałszywego pozytywu, spojrzałbym na to w ten sposób:

Jeśli przeprowadzisz eksperyment dwa razy i uzyskasz ten sam wynik, nie masz pojęcia, czy były dwa prawdziwie pozytywne wyniki, czy dwa fałszywie pozytywne wyniki z rzędu.
Jeśli przeprowadzisz eksperyment dwukrotnie i uzyskasz dwa różne wyniki, nie wiesz, który jest prawdziwie pozytywny, a który fałszywie pozytywny.

W obu przypadkach powinieneś przeprowadzić trzeci eksperyment, dla pewności. Może to być dobre w przypadku eksperymentów, które są stosunkowo niedrogie, ale tam, gdzie koszt jest potencjalnie wysoki (np. Utrata klientów), naprawdę należy wziąć pod uwagę korzyści.

Patrząc na prawdopodobieństwo, przy pierwszym uruchomieniu eksperymentu istnieje 1/20 szansa na wynik fałszywie dodatni. Przy drugim uruchomieniu eksperymentu nadal istnieje 1/20 szansa na fałszywie dodatni wynik (pomyśl o rzucie kostką, gdzie każdy rzut ma 1/6 szansy na uzyskanie określonej liczby). Istnieje tylko 1/400 szansy na dwa fałszywe alarmy z rzędu.

Prawdziwym problemem jest posiadanie dobrze zdefiniowanej hipotezy z rygorystycznymi procedurami oraz posiadanie wielkości próby, poziomu błędu i przedziału ufności, z którym można żyć lub stać. Powtórzenie eksperymentu należy pozostawić do zbadania

klienci z czasem
zmiany wprowadzone przez organizację
zmiany wprowadzone przez konkurencję

zamiast wyników drugiego zgadywania. Chociaż wyjaśnienie tego kierownikom jest łatwiejsze do powiedzenia niż do zrobienia.

mjc
źródło

mjc, wielkie dzięki za komentarz - tego właśnie szukałem.

John

Tak, to stwierdzenie jest prawidłowe, zakładając, że eksperyment jest idealny. Ale uzyskanie idealnego eksperymentu jest o wiele trudniejsze niż ten sentyment daje wiarygodność. Dane w „świecie rzeczywistym” są przede wszystkim nieporządne, skomplikowane i trudne do interpretacji. Istnieje ogromna przestrzeń na błędne analizy, ukryte zmienne (bardzo rzadko „te same ograniczenia”) lub nieporozumienia między badaczem danych wykonującym swoją pracę a wykonawcą znakowania wykonującym swoje.

Z biznesowego punktu widzenia zapewnia dobrą metodologię i nie jest zbyt pewny wyników; trudniejsze wyzwanie, niż mogłoby się wydawać. Gdy już je zdejmiesz, pracuj nad tymi 5%.

eric chiang
źródło

Dzięki, to odpowiada na pierwsze pytanie. A co z drugim pytaniem: „Czy lepszym podejściem byłoby zwiększenie poziomu istotności?” Po prostu wykonując szybką symulację w R (zachowując ten sam rozmiar efektu i moc, zmieniając tylko wartość istotności), mógłbym zebrać ~ 4,8% mniej danych, po prostu wybierając 97,5% istotności, zamiast przeprowadzać eksperymenty 2x z istotnością 95%. Powinienem wyjaśnić - kiedy pytam „Czy byłoby lepiej ..” Mam na myśli, czy mógłbym osiągnąć ten sam efekt końcowy, zbierając mniej danych.

John