Mam zestaw danych. Powiedz obserwacji i zmienne:
obs A B C
1 0 0 1
2 0 1 0
3 1 0 1
4 1 1 0
5 1 0 1
6 1 0 0
7 1 1 0
8 0 0 1
9 0 1 1
10 0 1 1
Powiedzmy, że to klientów, którzy kupili ( ) lub nie ( ) w każdej kategorii . Jest ich , więc tych klientów kupuje średnio w kategoriach produktów.1
0
A, B, C
Uwaga: klienci mogą kupować więcej niż jeden z A, B i C.
Jeśli spojrzę tylko na tych, którzy kupują A
, jest klientów, którzy kupili w kategoriach produktów, więc średnio .
B
jest ponownie lub .
C
wynosi
Wszystkie powyżej
co wydaje się dziwne. Rozumiem to, ale muszę to wyjaśnić marketingowi w przyszłym tygodniu, więc potrzebuję pomocy!
Jak się nazywa ta rzecz?
Wiem, że to nie paradoks Simpsona. Dla mnie jest to logika podobna do problemu Monty Hall i prawdopodobieństwa warunkowego.
proportion
descriptive-statistics
paradox
James Adams
źródło
źródło
Odpowiedzi:
Średnia każdej podkategorii może przekraczać ogólną średnią, jeśli podkategorie nakładają się na większych klientów.
Prosty przykład uzyskania intuicji:
Zbiór osób, w których prawdziwe jest nakłada się na zbiór osób, w których prawdziwe jestNIE są to zestawy rozłączne.A B
Następnie podczas gdy iE[X]≈1.33 E[X∣A]=1.5 E[X∣B]=1.5
Stwierdzenie, które byłoby prawdziwe, brzmi:
Nie można po prostu obliczyć nazwa nazwa ponieważ zestawy i nakładają się, wyrażenie podwójnie liczy osobę kto kupuje zarówno pozycje i !P(A)E[X∣A]+P(B)E[X∣B] A B A B
Nazwa iluzji / paradoksu?
Twierdziłbym, że ma to związek z paradoksem iluzji większości w sieciach społecznościowych.
Możesz mieć jednego kolesia, który łączy w sieć / znajomych. Ta osoba może być jednym z miliona ogółem, ale będzie jednym z przyjaciół każdej osoby .k
Podobnie, masz 1 na 3, którzy kupują tutaj obie kategorie A i B. Ale w obu kategoriach A lub B, 1 na 2 nabywców jest super nabywcą.
Ekstremalna sprawa:
Stwórzmy zestawów losów lotto. Każdy zestaw zawiera dwa : bilet przegrany bilet wygranej w jackpocie.n Si i
Średnia wygrana w każdym secie wynosi wtedy gdzie jest jackpotem. Średnia z każdej kategorii jest O DROGA powyżej średniej ogólnej wygranej na bilet .Si J2 J Jn+1
To ta sama dynamika koncepcyjna, co w przypadku sprzedaży. Każdy zestaw zawiera w taki sam sposób, jak każda kategoria A, B lub C obejmuje dużych kupujących.Si
Moim dolnym punktem byłaby intuicja oparta na rozłącznych zestawach, pełny podział przestrzeni próbki nie przechodzi do szeregu nakładających się zbiorów. Jeśli warujesz nakładające się kategorie, każda kategoria może być powyżej średniej.
Jeśli podzielimy przykładową przestrzeń i warunek na zestawy rozłączne, wówczas kategorie muszą uśrednić się do ogólnej średniej, ale nie jest to prawdą w przypadku nakładających się zbiorów.
źródło
Nazwałbym to paradoksem wielkości rodziny lub czymś podobnym
Załóżmy, że dla prostego przykładu wszyscy mieli jednego partnera i liczbę dzieci rozłożoną przez Poissona z parametrem :2
Rzeczywiste liczby demograficzne i ankietowe dają różne liczby, ale podobne wzory
Pozorny paradoks polega na tym, że średnia wielkość grup rodzeństwa poszczególnych osób jest większa niż średnia liczba dzieci na rodzinę; przy stabilnej dynamice populacji ludzie zwykle mają mniej dzieci niż ich rodzice
Wyjaśnieniem jest to, czy średnia jest przejmowana od rodziców i rodzin, czy od rodzeństwa: dla dużych rodzin stosuje się różne wagi. W twoim przykładzie istnieje różnica między ważeniem według osób lub zakupami; Twoje średnie warunkowe są zwiększane przez fakt, że warunkujesz przy konkretnym zakupie.
źródło
Inne odpowiedzi są nadrzędne wobec tego, co się dzieje. Załóżmy, że jest jeden produkt i dwóch klientów. Jeden kupił produkt (raz), a drugi nie. Średnia liczba zakupionych produktów wynosi 0,5, ale jeśli spojrzeć tylko na klienta, który kupił produkt, średnia wzrasta do 1.
Nie wydaje mi się to paradoksem ani sprzecznością z intuicją; uwarunkowanie zakupu produktu ogólnie podnosi średnią liczbę zakupionych produktów.
źródło
Czy nie jest to jedynie zamaskowanie „średniej średnich” (np. Poprzednie pytanie o zmianę stosu )? Twoja pokusa wydaje się być taka, że średnie z podpróbek powinny kończyć się uśrednieniem do średniej populacji, ale rzadko się to zdarza.
W klasycznej „średniej średnich” ktoś znajduje średnią z N wzajemnie wykluczających się podzbiorów, a następnie jest zaskoczony, że te wartości nie są uśredniane względem średniej populacji. Jedyny sposób, w jaki działa ta średnia średnich, jest taki, że nie nakładające się podzbiory mają ten sam rozmiar. W przeciwnym razie musisz wziąć średnią ważoną.
Twój problem jest bardziej złożony niż ta tradycyjna średnia pomyłek ze względu na nakładające się podzbiory, ale wydaje mi się, że to tylko klasyczny błąd z niespodzianką. W przypadku nakładających się podzbiorów jeszcze trudniej jest uzyskać średnie podpróbowe, które są średnie do średniej populacji.
W twoim przykładzie, ponieważ użytkownicy, którzy pojawiają się w wielu podpróbkach (i dlatego kupili wiele rzeczy), zwiększą te średnie. Zasadniczo liczysz każdego dużego wydawcę wiele razy, podczas gdy oszczędni ludzie, którzy kupują tylko jeden przedmiot, spotykają się tylko raz, więc jesteś nastawiony na większe wartości. Właśnie dlatego twoje poszczególne podzbiory mają wartości powyżej średniej, ale myślę, że wciąż jest to tylko problem „średniej średnich”.
Możesz również konstruować wszelkiego rodzaju inne podzbiory na podstawie danych, w których średnie podpróbkowe przyjmują różne wartości. Na przykład, weźmy podzbiory nieco podobne do twoich podzbiorów. Jeśli wziąć podzbiór ludzi, którzy nie kupić, masz 7/5 = 1,4 przedmiotów na średniej. Przy podzbiorze, który nie kupił B, otrzymujesz również średnio 1,4 pozycji. Ci, którzy nie kupili C, kupili średnio 1,5 przedmiotu. Wszystkie są poniżej średniej populacji wynoszącej 1,6 pozycji / klienta. Biorąc pod uwagę odpowiedni zestaw danych i odpowiedni zbiór podzbiorów, możesz skończyć z nakładającymi się podzbiorami, których średnie są średnie do średniej populacji; byłoby to jednak rzadkie w normalnych zastosowaniach.
Czy to tylko ja, czy też słowo średnia wydaje się teraz dziwne po tylu powtórzeniach ... Mam nadzieję, że moja odpowiedź była pomocna i przepraszam, jeśli zepsułem dla ciebie słowo średnia!
źródło
Ponieważ chodzi o to, „ rozumiem to, ale muszę to wyjaśnić marketingowi ”, OP wydaje się zaniepokojony tym, jak laik zinterpretuje te fakty - (nie to, czy fakty są prawdziwe, ani jak to udowodnić). Pytanie dotyczy 10 kategorii produktów (AJ), więc co z tym przykładem:
[w spotkaniu z grupą marketingową]
OP : Jak widać tutaj , klienci kupujący A, B i C są bardziej wartościowi niż przeciętni.
Layman : Czekaj ?! Jak każdy może być wyższy niż średnia?
OP : Dobre pytanie. Ten slajd koncentruje się na klientach A, B i C, ale są też inne grupy o niskiej skuteczności, których nie pokazano. Na przykład klienci kategorii D i G są warte około połowy średniej.
Powinno to stłumić wewnętrzny alarm bs wszystkich o tym, że „wszystko jest powyżej średniej”.
źródło
Zignoruj inne odpowiedzi tutaj. To wcale nie jest paradoks. Rzeczywisty problem pod ręką tutaj, które wszyscy zdają się ignorować to, że jesteś pomylenia których prawdopodobieństwo jesteś rzeczywiście patrząc na. W rzeczywistości istnieją tutaj dwie zupełnie różne średnie i statystyki, które mają własne zastosowania i interpretacje w proponowanym przykładzie (marketing)!
Po pierwsze, średnia liczba produktów zakupionych na klienta. Średnio jeden klient kupuje 1,6 pozycji. Oczywiście klient nie może tylko 0,6 produktu (zakładając, że nie jest to coś takiego jak ryż lub zboże, które ma ciągły pomiar związany z nim).
Po drugie, istnieje średnia liczba klientów, którzy kupują dany produkt. Brzmi dziwnie, prawda? Średnio produkt ma 5.33333333 ... klientów, którzy go kupują. Jednak jest inaczej. Opisujemy tutaj nie liczbę zakupionych produktów (są ich tylko trzy!), Ale liczbę osób faktycznie kupujących ten produkt.
Pomyśl o tych dwóch wartościach w ten sposób: Co te dwie wartości reprezentowałyby, gdyby był tylko jeden klient lub tylko jeden produkt? W końcu średnia pojedynczego punktu danych jest tylko tym danym punktem danych.
Albo jeszcze lepiej, pomyśl o wykresie, który podaje kwoty w dolarach wydane na zakup produktu. Oczywiście średnia kwota wydana przez indywidualnego klienta będzie znacznie mniejsza niż średnia kwota zarobiona przez produkt dostarczony przez dużą korporację (lub nawet małą firmę). Jestem pewien, że możesz wymyślić dobre sposoby wykorzystania obu wartości podczas omawiania dobrobytu firmy.
Kiedy idziesz, aby wyjaśnić to pracownikom marketingu, wyjaśnij im to tak, jak powiedziałem. To nie jest paradoks. To po prostu zupełnie inna statystyka. Jedynym problemem tutaj było zauważenie, że w rzeczywistości istnieją dwa różne sposoby odczytywania wykresu (tj. Liczba osób kupujących na produkt w porównaniu do liczby produktów zakupionych na osobę).
tl; dr pierwszą rzeczą, którą opisałeś, jest średnia kwota, jaką klient jest skłonny wydać na zakup twoich produktów. Drugi to średnie zapotrzebowanie na dany produkt przez społeczeństwo. Jestem pewien, że teraz rozumiesz, dlaczego oba z pewnością nie są tym samym. Porównując je jako takie, otrzymasz tylko informacje na temat śmieci.
EDYTOWAĆ
Wygląda na to, że pytanie dotyczy w rzeczywistości średnich pieniędzy wydawanych przez klientów, którzy kupują jakiś produkt a, b lub c. W porządku. To właściwie tylko błąd w obliczeniach. Nie nazwałbym tego paradoksem. To naprawdę tylko subtelny flub.
Spójrz na swoje kolumny. Istnieją osoby, które są współużytkowane między kolumnami. Załóżmy, że zrobiłeś właściwą średnią ważoną . Wciąż dodajesz ludzi dwa razy. Oznacza to, że średnia będzie zawierać dodatkowe osoby o wartości większej lub równej 2. A jaka była Twoja średnia? To było 1.6! W gruncie rzeczy Twoja średnia wygląda następująco:
To zdecydowanie nieodpowiednia formuła. Jest to średnia ważona, ale przy założeniu wzajemnej wyłączności, w taki sposób dostosowujesz się, aby uzyskać prawdziwą średnią w swojej sytuacji.
Tak czy inaczej, otrzymasz pomieszaną średnią. Jednym błędem było ignorowanie potrzeby średniej ważonej, ponieważ jedna kategoria ma większą „wagę” pod względem średniej. To jest jak gęstość. Jedna wartość jest gęstsza w ludziach reprezentuje. Innym problemem jest duplikowanie dodawania, które zniekształci średnią. Jednak nie nazywam żadnego z tych „paradoksów”. Gdy zobaczyłem, co robisz, wydawało mi się oczywiste, dlaczego to nie zadziała. Średnia ważona jest dość oczywista ze względu na jej potrzebę i myślę, że teraz widzicie, że dodawaliście wartości wiele razy ... to nie może działać. Zasadniczo wziąłeś średnią kwadratów ich wartości.
źródło