Sprawdź, czy ludzie rezygnują lub zmniejszają zakłady po powtarzających się stratach

10

Mam dane dotyczące serii wygranych i przegranych zakładów w 5 rundach zakładów z wyczerpaniem po każdej rundzie. Korzystam z drzewa decyzyjnego, takiego jak poniżej, do wyświetlania danych.

wprowadź opis zdjęcia tutaj

Węzły w górnej części drzewa to te, które mają wygrane zakłady, a te w dolnej części drzewa mają serie przegranych zakładów. Chcę spojrzeć na (a) zużycie w każdym węźle (b) zmiany średnich wielkości zakładów w każdym węźle. Patrzę na szybkość ścierania w każdym węźle z poprzedniego węzła i wskaźnik przeżycia (używając oczekiwanej liczby osób w każdym węźle, jeśli prawdopodobieństwo wynosi 50%). Na przykład, jeśli prawdopodobieństwo wynosi 50% w każdym węźle, spośród 1000, które rozpoczęły, około 500 osób powinno znajdować się w każdym z drugich węzłów, W i L. Hipoteza jest (a) szybkość ścierania jest wyższa po utracie zakłady (b) średnia wielkość zakładu jest zmniejszana po przegranych i podnoszona po wygranych.

Najpierw chcę to zrobić w bardzo prostym ustawieniu jednowymiarowym. Jak mogę wykonać test t, aby wykazać, że zmiana średniej wielkości zakładu z węzła WW do węzła WWW jest statystycznie znacząca, jeśli wypadło 50 osób? Nie jestem pewien, czy jest to właściwe podejście: każdy kolejny zakład jest niezależny, ale ludzie odpadają po przegranych, więc próbka nie jest dopasowana. Gdyby to był tylko przypadek, gdy ta sama klasa zdawała serię egzaminów jeden po drugim, z nikim nie rezygnując, zrozumiałbym, jak wykonać odpowiedni test t, ale myślę, że to trochę inaczej.

W jaki sposób mogę to zrobić? Ponadto, jeśli wyniki są wypaczane przez niewielką liczbę klientów, jak mogę usunąć górne 5% i dolne 5%? Czy po prostu usunąć klientów z najwyższą łączną wielkością stawki z zakładu 1-3?

Mam dane, z których została wygenerowana liczba, więc mam średni, standardowy, standardowy błąd itp. W każdym węźle.

użytkownik2146441
źródło
1
Linia, która powinna być WL, jest oznaczona WW. Błąd rozprzestrzenia się wzdłuż tej linii. Czy to wszystko, co masz, to ta liczba, czy masz dane, z których ta liczba została wygenerowana?
Jan
Próbuję dowiedzieć się, czy można z tego stwierdzić, gdzie dochodzi do ścierania. N to ludzie, którzy postawili zakład, ale nie ludzie, którzy się tam dostali. Na przykład 450 idzie W, ale wtedy wychodzi 250 i 180. Więc 20 już nie ma, ale czy ci wygrali czy przegrali?
Jan
Mam dane, z których została wygenerowana liczba, tak. Od tego czasu edytowałem drzewo, aby poprawić wskazany błąd, i zmieniłem niektóre węzły końcowe, aby zreplikować rodzaj ścierania w prawdziwym zbiorze danych. Masz rację, że wyczerpanie nie jest w tej chwili jasne. Będę ponownie edytować drzewo w ciągu następnych kilku minut, aby wyświetlić nieco więcej danych. Dzięki.
user2146441

Odpowiedzi:

1

Wygląda prawie „oczywiste, patrząc”, że przegrani byli bardziej skłonni do rezygnacji niż zwycięzcy.

Możesz wypróbować zestaw tabel awaryjnych, aby ustalić, czy powyższe jest istotne statystycznie. Na przykład spośród 450 zwycięzców pierwszego zakładu 25 odpadło, a 425 pozostało, a spośród 550 przegranych 150 odpadło, a 400 pozostało. Itp.

Emil Friedman
źródło
0

Ta odpowiedź prawdopodobnie będzie trochę nie na temat, ale zacznę od tego, co jest na ten temat. Gdybym został poproszony o określenie, czy zmiana średniej wielkości zakładu z WW do WWW była znacząca, zignorowałbym osoby, które nie dotarły do ​​obu tych węzłów. Jeśli celem tej analizy jest możliwość przewidywania przyszłych zachowań, wówczas mechanika próby powinna dobrze naśladować mechanikę przyszłych zachowań, nawet jeśli gra nie jest grą losową. Jaki jest sens pomiaru, w jaki sposób czyjś zakład zmieniłby się z WW na WWW, jeśli nie jest typem osoby, która przechodzi z WW na WWW.

To powiedziawszy, ogólnie rzecz biorąc, oczywiście nie lubimy systematycznie wykluczać pewnych populacji. Gdybym otrzymał te dane, skupiłbym się na bardziej wykonalnych rodzajach analiz. Przede wszystkim (zwłaszcza jeśli nie jest to gra losowa) gracze w podobnym węźle mają ze sobą wiele wspólnego. Miały tę samą sekwencję (W, L) i nie pozostały. Odpowiadanie na pytania w stylu „Jaki jest wpływ przegranej rundy na wielkość zakładu i zużycie”, jest całkiem wykonalne przy kontrolowaniu zachowania zależnego od węzła, w postaci modelu wielopoziomowego.

Ostatnią radą byłoby skupienie się na różnicach między graczami w poszczególnych rundach. Średni zakład obniżający się o 5 centów po pewnym czasie może być statystycznie nieistotny, podczas gdy prawdopodobnie 90% zakładów graczy spadających będzie prawdopodobnie.

jlimahaverford
źródło