Przepraszam za rzeź w statystycznym żargonie :) Znalazłem tutaj kilka pytań związanych z reklamą i współczynnikiem klikalności. Ale żadne z nich nie bardzo mi pomogło w zrozumieniu mojej hierarchicznej sytuacji.
Istnieje podobne pytanie Czy te równoważne reprezentacje tego samego hierarchicznego modelu bayesowskiego? , ale nie jestem pewien, czy rzeczywiście mają podobny problem. Kolejne pytanie Priors dla hierarchicznego modelu dwumianowego Bayesa dotyczy szczegółowo hiperpriorów, ale nie jestem w stanie zmapować ich rozwiązania do mojego problemu
Mam kilka reklam online nowego produktu. Zezwalam na wyświetlanie reklam przez kilka dni. W tym momencie wystarczająco dużo osób kliknęło reklamy, aby zobaczyć, które z nich uzyska najwięcej kliknięć. Po wyrzuceniu wszystkich oprócz tego, który ma najwięcej kliknięć, pozwalam temu działać przez kolejne kilka dni, aby zobaczyć, ile osób faktycznie kupuje po kliknięciu reklamy. W tym momencie wiem, czy dobrym pomysłem było wyświetlanie reklam w pierwszej kolejności.
Moje statystyki są bardzo głośne, ponieważ nie mam dużo danych, ponieważ codziennie sprzedaję tylko kilka przedmiotów. Dlatego naprawdę trudno jest oszacować, ile osób kupuje coś po obejrzeniu reklamy. Tylko około jedno na każde 150 kliknięć powoduje zakup.
Ogólnie rzecz biorąc, muszę wiedzieć, czy tracę pieniądze na każdą reklamę tak szybko, jak to możliwe, w jakiś sposób wygładzając statystyki poszczególnych grup reklam za pomocą statystyk globalnych dla wszystkich reklam.
- Jeśli poczekam, aż każda reklama zobaczy wystarczającą liczbę zakupów, zbankrutuję, ponieważ trwa to zbyt długo: testowanie 10 reklam muszę wydać 10 razy więcej pieniędzy, aby statystyki dla każdej reklamy były wystarczająco wiarygodne. Do tego czasu mogłem stracić pieniądze.
- Jeśli uśrednię zakupy w stosunku do wszystkich reklam, nie będę w stanie wyrzucić reklam, które po prostu nie działają.
Czy mogę użyć globalnej stopy zakupu ( pod-dystrybucji N $? Oznaczałoby to, że im więcej danych mam dla każdej reklamy, tym bardziej niezależne są statystyki dla tej reklamy. Jeśli nikt jeszcze nie kliknął reklamy, zakładam, że średnia globalna jest odpowiednia.
Którą dystrybucję wybrałbym do tego?
Jeśli miałem 20 kliknięć na A i 4 kliknięcia na B, jak mogę to wymodelować? Do tej pory odkryłem, że dwumianowy lub rozkład Poissona może mieć tutaj sens:
purchase_rate ~ poisson
(?)(purchase_rate | group A) ~ poisson
(oszacować stopę zakupu tylko dla grupy A?)
Ale co mam teraz zrobić, aby faktycznie obliczyć purchase_rate | group A
. Jak połączyć razem dwie dystrybucje, aby mieć sens dla grupy A (lub dowolnej innej grupy).
Czy najpierw muszę dopasować model? Mam dane, których mógłbym użyć do „wyszkolenia” modelu:
- Reklama A: 352 kliknięcia, 5 zakupów
- Reklama B: 15 kliknięć, 0 zakupów
- Reklama C: 3519 kliknięć, 130 zakupów
Szukam sposobu oszacowania prawdopodobieństwa każdej z grup. Jeśli grupa ma tylko kilka punktów danych, zasadniczo chcę wrócić do średniej globalnej. Wiem trochę o statystykach bayesowskich i przeczytałem wiele plików PDF osób opisujących ich modelowanie przy użyciu wnioskowania bayesowskiego i koniugacji priorów i tak dalej. Myślę, że istnieje sposób, aby to zrobić poprawnie, ale nie mogę wymyślić, jak poprawnie to wymodelować.
Byłbym bardzo szczęśliwy z podpowiedzi, które pomogą mi sformułować mój problem w sposób bayesowski. To bardzo pomogłoby w znalezieniu przykładów online, których mógłbym użyć do faktycznego wdrożenia tego.
Aktualizacja:
Dziękuję bardzo za odpowiedź. Zaczynam rozumieć coraz więcej drobiazgów na temat mojego problemu. Dziękuję Ci! Pozwól, że zadam kilka pytań, aby sprawdzić, czy rozumiem problem nieco lepiej:
Zakładam więc, że konwersje są dystrybuowane jako dystrybucje Beta, a dystrybucja Beta ma dwa parametry, i .
Parametry są hiperparametrami, więc są parametrami wcześniejszymi? Więc ostatecznie ustawiłem liczbę konwersji i liczbę kliknięć jako parametr mojej dystrybucji Beta?
W pewnym momencie, gdy chcę porównać różne reklamy, obliczę . Jak obliczyć każdą część tej formuły?
Myślę, że nazywa się prawdopodobieństwem lub „trybem” dystrybucji Beta. To jest , gdzie i są parametrami mojej dystrybucji. Ale konkretne i tutaj są parametrami dystrybucji tylko dla reklamy , prawda? Czy w takim przypadku jest to tylko liczba kliknięć i konwersji, które widziała ta reklama? A może ile kliknięć / konwersji zobaczyły wszystkie reklamy?
Następnie mnożę przez przeora, którym jest P (konwersja), co w moim przypadku jest po prostu przeorem Jeffreysa, który nie ma charakteru informacyjnego. Czy wcześniejsza wersja pozostanie taka sama, gdy otrzymam więcej danych?
Dzielę przez , co jest krańcowym prawdopodobieństwem, więc liczę, jak często ta reklama została kliknięta?
Korzystając z wcześniejszej Jeffreys, zakładam, że zaczynam od zera i nic nie wiem o moich danych. Ten przeor nazywany jest „nieinformacyjnym”. Czy w miarę poznawania moich danych aktualizuję wcześniejszą wersję?
Gdy nadchodzą kliknięcia i konwersje, przeczytałem, że muszę „zaktualizować” moją dystrybucję. Czy to oznacza, że zmieniają się parametry mojego rozkładu, czy też wcześniejsze zmiany? Czy po kliknięciu reklamy X mogę zaktualizować więcej niż jedną dystrybucję? Więcej niż jeden przeor?
źródło
Należy oszacować prawdopodobieństwo „konwersji” (zakupu) po kliknięciu każdej reklamy. (Wygląda na to, że zakładasz, że prawdopodobieństwo konwersji jest takie samo dla każdego kliknięcia, co jest rozsądne).p
Bayesa sposobem, aby to zrobić, to oszacować rozkład na , czyli beta i ma parametry kształtu równa liczbie konwersji powiększonej i równa liczbie kliknięć, które nie skutkują konwersją powiększonej .p a a′ b b′
Aby uzyskać oszacowanie z estymatora za pomocą parametrów , możesz wybrać maksymalną wartość prawdopodobieństwa, tryb rozkładu Beta.p a,b
W odpowiedzi na Twoje zmiany:
Konwersje nie są dystrybuowane w wersji beta, ale dystrybuowane przez Bernoulliego z prawdopodobieństwem . Proszę porównać jak ja ustawiania i w pkt 2, z tym, co napisałeś. Zauważ, że masz dla każdej reklamy, a zatem przekonanie o dla każdej reklamy, a każde z tych przekonań ma swoje własne i .p a b p p a b
Aktualizacja bayesowska to
gdzie to obserwacja (konwersja lub brak konwersji), a jest wybrane dla odpowiedniej reklamy. Ta formuła jest już pracował w aktualizacji programu i , który działa tak, że w przypadku przekształcenia dodać 1 do , w przeciwnym razie dodać 1 do - to jest aktualizowanie przekonanie o .x p a b a b p
Przeor Jeffreysa to nie to samo, co przeorny nieinformacyjny, ale uważam, że lepiej, chyba że masz dobry powód, aby z niego skorzystać. Jeśli chcesz rozpocząć dyskusję na ten temat, zadaj kolejne pytanie.
źródło