Ustalanie wielkości próbki przed rozpoczęciem eksperymentu lub przeprowadzenie eksperymentu w nieskończoność?

12

Studiowałem statystyki wiele lat temu i zapomniałem o tym wszystkim, więc mogą wydawać się ogólnymi pytaniami koncepcyjnymi niż cokolwiek konkretnego, ale oto mój problem.

Pracuję dla witryny e-commerce jako Projektant UX. Mamy platformę testową A / B, która została zbudowana lata temu i zaczynam w to wątpić.

Dane, na podstawie których podejmujemy wszystkie nasze decyzje, nazywane są konwersjami i opierają się na odsetku użytkowników, którzy odwiedzają witrynę i ostatecznie coś kupują.

Chcemy więc przetestować zmianę koloru przycisku Kup z zielonego na niebieski.

Kontrola jest tym, co już mamy, zielony przycisk, w którym wiemy, jaki jest nasz średni współczynnik konwersji. Eksperyment polega na zastąpieniu zielonego przycisku niebieskim przyciskiem.

Zgadzamy się, że 95% to poziom ufności, z którego jesteśmy zadowoleni, i włączamy eksperyment, pozostawiając go uruchomionym.

Gdy użytkownicy odwiedzają witrynę, za kulisami istnieje szansa 50/50, że zostaną wysłani do wersji kontrolnej (zielony przycisk) w porównaniu z wersją eksperymentalną (niebieski przycisk).

Po spojrzeniu na eksperyment po 7 dniach widzę wzrost konwersji o 10,2% na korzyść eksperymentu z wielkością próby 3000 (1500 dla próby kontrolnej, 1500 dla eksperymentu) i istotnością statystyczną 99,2%. Myślę, że świetnie.

Eksperyment trwa, wielkość próbki rośnie, a następnie widzę wzrost konwersji o 9% ze znaczeniem 98,1%. Ok, utrzymuj eksperyment dłużej, a teraz eksperyment pokazuje tylko 5% wzrost konwersji z istotnością statystyczną wynoszącą tylko 92%, z ramą, która mówi mi, że potrzebuję 4600 dodatkowych próbek, zanim osiągnę 95% istotność?

W którym momencie eksperyment jest zatem rozstrzygający?

Jeśli myślę o powiedzeniu o procesie badania klinicznego, w którym z góry zgadzasz się na wielkość próby, a po zakończeniu eksperymentu widzisz 10% poprawę dowolnej miary do 99% znaczenia, wtedy zostaje podjęta decyzja, że ​​ten lek trafi na rynek. Ale jeśli przeprowadziliby eksperyment na 4000 ludzi i zauważą 5% poprawę dowolnego wskaźnika do zaledwie 92% znaczącego, to lek ten nie będzie mógł wejść na rynek.

Czy powinniśmy wcześniej uzgodnić wielkość próby i zatrzymać ją po osiągnięciu tego rozmiaru i być zadowolonym z wyników, jeśli istotność wynosiła 99% w momencie wyłączenia eksperymentu?

Tech 75
źródło
1
Możesz rozważyć zastosowanie innego podejścia opartego na rankingu i selekcji .
pjs
Natknąłem się na ten film ( youtube.com/watch?v=fl9V0U2SGeI ). Wydaje mi się, że dokładnie odpowiada na twoje pytanie.
Nathan
Warto również zauważyć, że podstawowa kwestia badań jest wysoce refleksyjna, szybka w ruchu i wymaga ciągłego powtarzania testów. Układy, kolory, przyciski itp. Poruszają się szybko, gdy pojawiają się nowe strony, standardy i style. Również wysoki poziom problemów kombinacyjnych (ten przycisk może zwracać różne wyniki z lekkim dostosowaniem koloru tła itp.). W rezultacie, niezależnie od poziomów istotności, nie można mieć bardzo wysokiego „prawdziwego” poziomu pewności (i na pewno nie przez długi czas) w wynikach, nawet jeśli wyglądają bardzo silnie.
Filip

Odpowiedzi:

11

Myślę, że pojęcie, którego szukasz, to analiza sekwencyjna. Istnieje wiele pytań dotyczących tej witryny z tagiem terminu, który może się okazać przydatne, chyba Regulacja wartość p dla adaptacyjnej analizy sekwencyjnej (dla testu chi kwadrat)? byłoby miejscem do rozpoczęcia. Możesz również przeczytać artykuł w Wikipedii tutaj . Innym przydatnym wyszukiwanym terminem jest wydatek alfa, który wynika z faktu, że przy każdym powtarzanym spojrzeniu powinieneś traktować go jako zużywający trochę swojego alfa (poziomu istotności). Jeśli nadal zaglądasz do swoich danych, nie biorąc pod uwagę wielu porównań, napotykasz problem opisany w pytaniu.

mdewey
źródło
Dzięki, to kilka dobrych rekomendacji do czytania. Nie wiedziałbym nawet, czego inaczej szukać. Zużyje to.
Tech 75
5

W którym momencie eksperyment jest zatem rozstrzygający?

Myślę, że właśnie tam jest błąd w myśleniu. Nie ma sensu, w którym eksperyment może być „rozstrzygający”, jeśli weźmie się to pod uwagę „przyczynowo udowodnić dedukcyjnie”. Kiedy przeprowadzasz eksperyment, który obejmuje test statystyczny, musisz zobowiązać się co do tego, jakie dowody uważasz za wystarczająco dobre.

Statystycznie uzasadnione procedury eksperymentalne dają wyniki ze znanymi wskaźnikami wyników fałszywie dodatnich i fałszywie ujemnych. Jeśli wybrałeś procedurę, która używa 0,05 jako progu istotności, mówisz, że jesteś gotów zaakceptować, że w 5% przypadków, w których tak naprawdę nie ma różnicy, twój test powie ci, że istnieje różnica.

Jeśli odejdziesz od procedury w opisany sposób (nie wybierając punktu zatrzymania przed czasem), po prostu uruchom test, aż obliczona wartość p spadnie poniżej 0,05, lub uruchom cały eksperyment wiele razy, aż uzyskasz pozytywny wynik itp.), zwiększasz prawdopodobieństwo, że Twój test powie Ci, że istnieje różnica, gdy w rzeczywistości nie ma żadnej różnicy. Zwiększasz prawdopodobieństwo , że oszukujesz się, myśląc, że zmiana jest skuteczna. Nie daj się zwieść.

Przeczytaj ten artykuł: Fałszywie pozytywna psychologia Nieujawniona elastyczność w gromadzeniu i analizie danych pozwala prezentować wszystko jako znaczące

Podkreśla kilka sposobów niewłaściwego zakłócania procedury testowej, które zwiększają prawdopodobieństwo oszukania użytkownika, w tym opisany dokładnie scenariusz (nie wiedząc, kiedy przerwać eksperyment).

Inne odpowiedzi zawierają rozwiązania pozwalające złagodzić te problemy (analiza sekwencyjna, korekta Bonferroniego dla wielu porównań). Ale te rozwiązania, natomiast w stanie kontrolować szybkość fałszywie dodatni, zazwyczaj zmniejszyć moc eksperymentu, dzięki czemu jest mniej prawdopodobne, aby wykryć różnice kiedy zrobić istnieć.


Popełniasz jeszcze jeden błąd. Mówisz o „10% poprawie dowolnej miary do 99% istotności”. Testy istotności mogą jedynie stwierdzić, czy zaobserwowana różnica w próbce może być spowodowana rzeczywistą różnicą leżącą u jej podstaw, czy tylko przypadkowym hałasem; nie dają ci przedziałów ufności wokół prawdziwej wielkości różnicy.

nauka
źródło
3

Myślę, że zadajesz tutaj niewłaściwe pytanie. Pytanie, które zadajesz, dotyczy testów statystycznych; Myślę, że właściwe pytanie brzmi: „dlaczego efekt zmienia się w czasie?”

Jeśli mierzysz zmienną 0/1 do konwersji (czy w ogóle kupili?), Ludzie, którzy nie kupili w pierwszej sesji, mogą wrócić i kupić później. Oznacza to, że współczynnik konwersji z czasem wzrośnie, a wszelkie skutki zakupu przez klienta podczas pierwszej wizyty, w przeciwieństwie do późniejszych wizyt, zostaną utracone.

Innymi słowy, najpierw popraw to , co mierzysz, a potem martw się o to, jak mierzysz.

efreeman
źródło
3

Właśnie dlatego przed próbami należy zdefiniować jasne kryterium. Jak @mdewey wskazuje, że istnieją ustalone metody okresowej oceny próby, ale wszystkie one wymagają wyraźnego kryterium zatrzymania, aby zapobiec manipulowaniu decyzją. Dwa krytyczne problemy to konieczność poprawienia wielu porównań oraz to, że każda analiza nie jest niezależna, ale na jej wynik duży wpływ mają wyniki poprzednich analiz.

Alternatywnie najlepszą praktyką może być zdefiniowanie ustalonej wielkości próby na podstawie argumentów istotnych z handlowego punktu widzenia.

Po pierwsze, firma powinna uzgodnić, jaka jest istotna z handlowego punktu widzenia zmiana współczynnika konwersji (tj. Jaki rozmiar różnicy jest potrzebny, aby uzasadnić komercyjne uzasadnienie wprowadzenia zmiany na stałe). Bez zgody nie ma sensownego punktu odniesienia.

Po ustaleniu minimalnej wielkości efektu istotnego z handlowego punktu widzenia (zwróć uwagę, że może się to zmienić w zależności od przypadku, w zależności od tego, jak krytyczny jest testowany etap), wówczas zgadzasz się z poziomem ryzyka, które firma jest gotowa zaakceptować za brak prawdziwego efektu ( beta) i za zaakceptowanie fałszywego efektu (alfa).

Gdy te liczby podłączysz je do kalkulatora wielkości próbki i voila, będziesz mieć swój ustawiony rozmiar próbki, aby podjąć decyzję.


EDYTOWAĆ

Używanie małych próbek i liczenie, że przyniosą wystarczająco duży efekt, jest fałszywą ekonomią (ponieważ Twoim celem są wiarygodne wyniki możliwe do zrealizowania zamiast generowania kontrowersyjnej hipotezy do publikacji akademickiej). Zakładając obiektywne pobieranie próbek, przy małych rozmiarach próbek prawdopodobieństwo losowego wybrania próbek, które okazały się być przeciwne do skrajności, jest wyższe niż w przypadku dużych rozmiarów próbek. Prowadzi to do większego prawdopodobieństwa odrzucenia hipotezy zerowej, gdy w rzeczywistości nie ma różnicy. Oznaczałoby to przeforsowanie zmian, które w rzeczywistości nie wywierają realnego wpływu, a nawet gorzej, wywierając nieznacznie negatywny wpływ. Jest to inny sposób wyjaśnienia, o czym mówi @Science, gdy mówią

„zwiększasz prawdopodobieństwo, że Twój test wykaże, że istnieje różnica, gdy w rzeczywistości nie ma różnicy”

Wstępne określenie analizy statystycznej (czy to ustalonej wielkości próby, jak to opisuję, czy strategii wielokrotnej oceny) polega na tym, aby odpowiednio wyważyć wymagania zarówno dla błędów typu I, jak i II. Twoja obecna strategia koncentruje się na błędach typu I i całkowicie ignoruje typ II.

Jak wielu innych ankieterów stwierdziło, że wyniki nigdy nie są rozstrzygające, ale jeśli weźmiesz pod uwagę zarówno błędy typu I, jak i ich wpływ na Twój biznes, będziesz mieć pewność, że możesz wprowadzić zmiany w oparciu o wyniki. Ostatecznie podejmowanie decyzji polega na tym, aby czuć się komfortowo z poziomem ryzyka i nigdy nie traktować swoich „faktów” jako niezmiennych.

Intrygują mnie inne aspekty projektu badania, które mogą mieć wpływ na wyniki, które widzisz. Mogą ujawniać pewne subtelne czynniki, które nie są tym, czego chcesz.

Czy osoby wybrane do próby to wszyscy nowi goście, wszyscy powracający, czy jest to niezróżnicowane? Ugruntowani klienci mogą mieć większą tendencję do wybierania czegoś nowego (tak nastawionego na zmianę, a nie określonego koloru), ale dla nowych klientów wszystko jest nowe.

Czy faktyczni ludzie klikający powtarzają się w ramach czasowych badania?

Jeśli ludzie odwiedzają wiele razy w ramach czasowych badania, czy otrzymają tę samą wersję, czy też są losowo przydzielani na bieżąco?

Włączenie cyklicznego gościa wiąże się z ryzykiem zmęczenia ekspozycją (nie rozprasza już, ponieważ nie jest już nowe)

ReneBt
źródło
Dzięki za to. Bardzo ważna jest wcześniej zgoda na istotną z handlowego punktu widzenia zmianę konwersji. Ponieważ jednak, podobnie jak w przypadku handlu elektronicznego, niewielkie zmiany w konwersji mogą wpłynąć na sprzedaż, będzie to dość niska wartość.
Tech 75
Minimalna wymagana różnica nie jest problemem, upewni się, że odpowiednio zasilasz.
ReneBt
0

Powszechna praktyka zwykle dyktuje, że najpierw decydujesz o wielkości próby (w celu kontroli mocy statystycznej testu hipotez), a następnie przeprowadzasz eksperyment.

W odpowiedzi na twoją obecną pozycję brzmi to tak, jakbyś po połączeniu szeregu testów hipotez. Polecam przyjrzeć się metodzie Fishera. Ponadto prawdopodobnie będziesz chciał przyjrzeć się metodom Browna lub Kosta w celu dostosowania metody Fishera do zależnych statystyk testowych. Jak wspomniał inny respondent, konwersja klienta (lub brak konwersji) będzie miała wpływ na to, czy dokona zakupu (czy nie) przy następnej wizycie - niezależnie od koloru przycisku.

Przemyślenia:

  1. Więcej informacji i źródeł na temat metod Fishera i ich rozszerzeń można znaleźć w artykule Wikipedii dotyczącym metody Fishera.
  2. Uważam, że należy wspomnieć, że eksperyment nigdy tak naprawdę nie jest rozstrzygający. Mała wartość p nie oznacza, że ​​twój wynik jest rozstrzygający - tylko że hipoteza zerowa jest mało prawdopodobna na podstawie zebranych danych.
Octavio Urista
źródło