Pewnego dnia podczas webinarium przeprowadzonego przez firmę testującą A / B ich rezydent „Data Scientist” wyjaśnił, że powinieneś zweryfikować swoje wyniki, ponownie uruchamiając eksperyment. Założeniem było, że jeśli wybierzesz 95% pewności, istnieje 5% (1/20) szansa na fałszywie pozytywny wynik. Jeśli ponownie uruchomisz eksperyment z tymi samymi ograniczeniami, teraz jest 1/400 (zakładam, że ustalili to jako 0,05 ^ 2 = 1/400)
Czy to jest prawidłowe oświadczenie? (tj. „Uruchom dwa razy, dwa statystycznie ważne zwycięstwa = 1/400 prawdopodobieństwa fałszywie dodatniego”)? Czy lepszym podejściem byłoby zwiększenie poziomu istotności?
Z biznesowego punktu widzenia moim problemem jest ponowne uruchomienie eksperymentu, narażasz więcej użytkowników na gorszą stronę (leczenie), a tym samym tracisz potencjalną sprzedaż.
Odpowiedzi:
Ignorując w tej chwili prawdopodobieństwo fałszywego pozytywu, spojrzałbym na to w ten sposób:
W obu przypadkach powinieneś przeprowadzić trzeci eksperyment, dla pewności. Może to być dobre w przypadku eksperymentów, które są stosunkowo niedrogie, ale tam, gdzie koszt jest potencjalnie wysoki (np. Utrata klientów), naprawdę należy wziąć pod uwagę korzyści.
Patrząc na prawdopodobieństwo, przy pierwszym uruchomieniu eksperymentu istnieje 1/20 szansa na wynik fałszywie dodatni. Przy drugim uruchomieniu eksperymentu nadal istnieje 1/20 szansa na fałszywie dodatni wynik (pomyśl o rzucie kostką, gdzie każdy rzut ma 1/6 szansy na uzyskanie określonej liczby). Istnieje tylko 1/400 szansy na dwa fałszywe alarmy z rzędu.
Prawdziwym problemem jest posiadanie dobrze zdefiniowanej hipotezy z rygorystycznymi procedurami oraz posiadanie wielkości próby, poziomu błędu i przedziału ufności, z którym można żyć lub stać. Powtórzenie eksperymentu należy pozostawić do zbadania
zamiast wyników drugiego zgadywania. Chociaż wyjaśnienie tego kierownikom jest łatwiejsze do powiedzenia niż do zrobienia.
źródło
Tak, to stwierdzenie jest prawidłowe, zakładając, że eksperyment jest idealny. Ale uzyskanie idealnego eksperymentu jest o wiele trudniejsze niż ten sentyment daje wiarygodność. Dane w „świecie rzeczywistym” są przede wszystkim nieporządne, skomplikowane i trudne do interpretacji. Istnieje ogromna przestrzeń na błędne analizy, ukryte zmienne (bardzo rzadko „te same ograniczenia”) lub nieporozumienia między badaczem danych wykonującym swoją pracę a wykonawcą znakowania wykonującym swoje.
Z biznesowego punktu widzenia zapewnia dobrą metodologię i nie jest zbyt pewny wyników; trudniejsze wyzwanie, niż mogłoby się wydawać. Gdy już je zdejmiesz, pracuj nad tymi 5%.
źródło