To nie jest pytanie do pracy w domu, ale prawdziwy problem, przed którym stoi nasza firma.
Niedawno (2 dni temu) zamówiliśmy u dystrybutora 10000 etykiet produktów. Dealer jest niezależną osobą. Otrzymuje etykiety wyprodukowane z zewnątrz, a firma dokonuje płatności na rzecz dealera. Każda etykieta kosztuje dokładnie 1 USD dla firmy.
Wczoraj dealer przyszedł z etykietami, ale etykiety były pakowane w paczce po 100 etykiet każda. W ten sposób było w sumie 100 pakietów, a każdy pakiet zawierał 100 etykiet, więc łącznie 10000 etykiet. Przed dokonaniem płatności na rzecz dealera w wysokości 10000 USD postanowiliśmy policzyć kilka pakietów, aby upewnić się, że każdy pakiet zawiera dokładnie 100 etykiet. Kiedy policzyliśmy etykiety, stwierdziliśmy, że w pakiecie brakuje 100 etykiet (znaleźliśmy 97 etykiet). Aby upewnić się, że nie jest to przypadek, ale zrobiliśmy to celowo, policzyliśmy 5 kolejnych pakietów i znaleźliśmy następującą liczbę etykiet w każdym pakiecie (w tym pierwszym pakiecie):
Packet Number Number of labels
1 97
2 98
3 96
4 100
5 95
6 97
Nie było możliwe policzenie każdego pakietu, dlatego postanowiliśmy dokonać płatności średnio. Tak więc średnia liczba etykiet w sześciu paczkach wynosi 97,166, więc całkowita ustalona płatność wyniosła 9716 USD.
Chcę tylko wiedzieć, jak statystyki muszą sobie poradzić z tego rodzaju problemem .
Ponadto chcę wiedzieć, ile powinniśmy zapłacić, aby uzyskać 95% pewność, że nie zapłaciliśmy więcej niż faktyczna liczba całych etykiet.
Dodatkowe informacje:
P (dowolny pakiet zawierał więcej niż 100 etykiet) = 0
P (każdy pakiet zawierał etykiety mniejszy niż 90) = 0 {etykiety mniejsze niż 90 byłyby łatwo wykrywane podczas liczenia pakietów, ponieważ pakiet miałby mniejszą wagę}
EDYCJA: Dealer po prostu odmawia takiego nadużycia. Okazało się, że dystrybutor pracuje na podstawie określonej prowizji, którą otrzymuje od producenta za to, co firma płaci. Gdy skontaktowaliśmy się bezpośrednio z producentem, okazało się, że nie jest to wina producenta ani winy dealera. Producent powiedział: „Etykiety stają się krótkie, ponieważ arkusze nie mają znormalizowanego rozmiaru skracają, , i bez względu na to, jaką liczbę wycina się z pojedynczego arkusza, łączą je w pakiet”.
Ponadto otrzymaliśmy potwierdzenie naszego pierwszego twierdzenia podanego w dodatkowych informacjach, ponieważ producent przyznał, że z powodu marginalnego wzrostu rozmiaru arkusza nie można wyciąć dodatkowych etykiet, a także, z powodu marginalnego zmniejszenia rozmiaru arkusza nie można wyciąć 100 etykiet dokładnie tego samego rozmiaru.
Odpowiedzi:
Byłbym zainteresowany informacją zwrotną na temat akapitu rozpoczynającego się „Po zastanowieniu ...”, ponieważ pewna część modelu podtrzymywała mnie w nocy.
Model Bayesa
Zmienione pytanie sprawia, że myślę, że możemy opracować model wyraźnie, bez symulacji. Symulacja wprowadziła dodatkową zmienność ze względu na nieodłączną losowość próbkowania. Odpowiedź sofologów jest jednak świetna.
Założenia : najmniejsza liczba etykiet na kopertę wynosi 90, a największa 100.
Dlatego najmniejsza możliwa liczba etykiet wynosi 9000 + 7 + 8 + 6 + 10 + 5 + 7 = 9043 (jak podano w danych OP), 9000 ze względu na naszą dolną granicę oraz dodatkowe etykiety pochodzące z obserwowanych danych.
Oznacz liczbę etykiet w kopercie i . Oznacza X i liczba etykiet na 90 °, to znaczy X = Y - 90 , tak X ∈ { 0 , 1 , 2 , . . . , 10 } . Rozkład dwumianowy modeluje całkowitą liczbę sukcesów (tutaj sukcesem jest obecność etykiety w kopercie) w n próbach, gdy próby są niezależne ze stałym prawdopodobieństwem powodzenia p, więc X przyjmuje wartościYi i Xi X=Y−90 X∈{0,1,2,...,10} n p X Przyjmujemy n = 10 , co daje 11 różnych możliwych wyników. Zakładam, że ponieważ rozmiary arkuszy są nieregularne, niektóre arkusze mają tylko miejsce na X dodatkowych etykiet przekraczających 90, i że ta „dodatkowa przestrzeń” dla każdej etykiety przekraczającej 90 występuje niezależnie z prawdopodobieństwem p . Więc X i ∼ Dwumianowy ( 10 , p ) .0,1,2,3,...,n. n=10 X p Xi∼Binomial(10,p).
(Po zastanowieniu założenie o niezależności / modelu dwumianowym jest prawdopodobnie dziwnym założeniem, ponieważ skutecznie ustala, że skład arkuszy drukarki jest nieimodalny, a dane mogą jedynie zmienić lokalizację trybu, ale model nigdy nie zaakceptuje dystrybucja multimodalna. Na przykład w alternatywnym modelu możliwe jest, że drukarka tylkoma arkusze o rozmiarach 97, 98, 96, 100 i 95: spełnia to wszystkie podane ograniczenia, a dane nie wykluczają tej możliwości. Bardziej właściwe może być uznanie każdego rozmiaru arkusza za własną kategorię, a następnie dopasowanie do danych modelu wielomianowego Dirichleta. Nie robię tego tutaj, ponieważ danych jest tak mało, więc wcześniejsze prawdopodobieństwo dla każdej z 11 kategorii będzie miało silny wpływ. Z drugiej strony, dopasowując prostszy model, ograniczamy również rodzaje wnioskowania, które możemy zrobić.)
Każdy koperty jest IID realizacja X . Suma prób dwumianowych o tym samym prawdopodobieństwie powodzenia p jest również dwumianowa, więc ∑ i X i ∼ Dwumianowy ( 60 , p ) .i X p ∑iXi∼ Dwumianowy ( 60 , p ) . (To jest twierdzenie - w celu weryfikacji użyj twierdzenia o wyjątkowości MGF).
Wolę myśleć o tych problemach w trybie bayesowskim, ponieważ możesz składać bezpośrednie oświadczenia prawdopodobieństwa dotyczące późniejszych wielkości zainteresowania. Typowym uprzednim badaniem dwumianowym z nieznanym jest rozkład beta , który jest bardzo elastyczny (waha się między 0 a 1, może być symetryczny lub asymetryczny w dowolnym kierunku, jednolity lub w jednej z dwóch mas Diraca, mieć antymodę lub tryb. To niesamowite narzędzie!). Wobec braku danych rozsądne wydaje się przyjęcie jednakowego prawdopodobieństwa w stosunku do p . Oznacza to, że można oczekiwać, że arkusz pomieści 90 etykiet tak często, jak 91, tak często, jak 92, ..., tak często, jak 100. Tak więc naszym przełożonym jest p ∼ Beta ( 1 , 1 ) .p p p ∼ Beta ( 1 , 1 ) . Jeśli nie uważasz, że ten przeor beta jest rozsądny, jednolity przeor można zastąpić innym przełożeniem beta, a matematyka nie zwiększy nawet trudności!
Rozkład tylny na wynosi p ∼ Beta ( 1 + 43 , 1 + 17 ) na podstawie właściwości koniugacyjnych tego modelu. Jest to jednak tylko etap pośredni, ponieważ nie dbamy o p tak bardzo, jak dbamy o całkowitą liczbę etykiet. Na szczęście właściwości koniugacji oznaczają również, że tylna predykcyjna dystrybucja arkuszy jest dwumianowa , z parametrami beta tylnej. Istnieje 940 powtórnych „prób”, tj. Etykiet, dla których ich obecność w dostawie jest niepewna, więc nasz model tylny na pozostałych etykietach Z Z ∼p p ∼ Beta ( 1 + 43 , 1 + 17 ) p 940 Z jestZ∼ BB ( 44 , 18 , 940 ) .
Ponieważ mamy rozkład na i model wartości na etykietę (sprzedawca zgodził się na jednego dolara na etykietę), możemy również wywnioskować rozkład prawdopodobieństwa na podstawie wartości partii. Oznacz D całkowitą wartość dolara partii. Wiemy, że D = 9043 + Z , ponieważ Z modeluje tylko te etykiety, których nie jesteśmy pewni. Tak więc rozkład na wartość podaje DZ re D = 9043 + Z Z re .
Jaki jest właściwy sposób rozważenia wyceny partii?
Możemy stwierdzić, że kwantyle przy 0,025 i 0,975 (przedział 95%) wynoszą odpowiednio 553 i 769. Zatem przedział 95% dla D wynosi . Twoja płatność przypada w tym przedziale czasowym. (Rozkład na D[ 9596 , 9812 ] re nie jest dokładnie symetryczny, więc nie jest to środkowy przedział 95% - jednak asymetria jest znikoma. W każdym razie, jak rozwinęłem poniżej, nie jestem pewien, czy środkowy przedział 95% jest nawet poprawny jeden do rozważenia!)
Nie znam funkcji kwantylowej dla rozkładu dwumianowego beta w R, więc napisałem własną, korzystając z funkcji rootowania.
Innym sposobem myślenia o tym jest po prostu zastanowienie się nad oczekiwaniami. Jeśli powtórzyłbyś ten proces wiele razy, jaki byłby średni koszt, który zapłaciłbyś? Możemy obliczyć oczekiwane bezpośrednio. E ( D ) = E ( 9043 + Z ) = E ( Z ) + 9043. Model dwumianowy beta ma oczekiwania E ( Z ) = n αre E (D)= E (9043+Z) = E ( Z) + 9043. , więcE(D)=9710.097,prawie dokładnie to, co zapłaciłeś. Twoja oczekiwana strata na transakcji wyniosła zaledwie 6 dolarów! Wszystko powiedziane, dobra robota!E (Z) = n αα + β= 667,0968 E (D)=9710,097,
Ale nie jestem pewien, czy któraś z tych liczb jest najbardziej odpowiednia. W końcu ten sprzedawca próbuje cię oszukać! Gdybym zawarł tę umowę, przestałbym się martwić, czy dojdzie do rentowności lub ceny partii w wartości godziwej, i zacznę obliczać prawdopodobieństwo, że przepłacę! Sprzedawca najwyraźniej próbuje mnie oszukać, więc mam pełne prawo do minimalizacji strat i nie przejmowania się progiem rentowności. W tym ustawieniu najwyższa cena, jaką zaoferowałbym, to 9615 dolarów, ponieważ jest to 5% kwantyla a posteriora na , tj. Istnieje 95% prawdopodobieństwa, że przepłacęre . Sprzedawca nie może mi udowodnić, że wszystkie etykiety są tam, więc zamierzam zabezpieczyć swoje zakłady.
(Oczywiście fakt, że sprzedawca zaakceptował umowę, mówi nam, że ma on nieujemną prawdziwą stratę ... Nie wymyśliłem sposobu na wykorzystanie tych informacji, aby pomóc nam dokładniej określić, o ile zostałeś oszukany, z wyjątkiem odnotowania że ponieważ przyjął ofertę, w najlepszym razie byłeś na granicy ).
Porównanie do bootstrapu
Mamy tylko 6 obserwacji do pracy. Uzasadnienie dla bootstrap jest asymptotyczne, więc zastanówmy się, jak wyglądają wyniki na naszej małej próbce. Ten wykres pokazuje gęstość symulacji boostrap.
Wzór „nierówny” jest artefaktem małej wielkości próbki. Włączenie lub wyłączenie jednego punktu będzie miało dramatyczny wpływ na średnią, tworząc ten „skupiony” wygląd. Bayesowskie podejście wygładza te grudki i, moim zdaniem, jest bardziej wiarygodnym portretem tego, co się dzieje. Linie pionowe to 5% kwantyli.
źródło
EDYCJA: Tragedia! Moje początkowe założenia były błędne! (A przynajmniej wątpię - czy wierzysz w to, co sprzedawca ci mówi? Mimo to, czapka dla Mortena również.) Sądzę, że to kolejne dobre wprowadzenie do statystyki, ale Podejście Częściowego Arkusza zostało teraz dodane poniżej ( ponieważ ludzie podobają się całemu arkuszowi, a być może ktoś nadal uzna to za przydatne).
Przede wszystkim wielki problem. Ale chciałbym, aby było to trochę bardziej skomplikowane.
Z tego powodu, zanim to zrobię, pozwólcie, że uczynię to nieco prostszym i powiedzmy - metoda, której używasz teraz, jest całkowicie rozsądna . Jest tani, łatwy, ma sens. Więc jeśli musisz się tego trzymać, nie powinieneś czuć się źle. Upewnij się, że losowo wybierasz pakiety. I, jeśli możesz po prostu rzetelnie zważyć wszystko (wskazówka dla whubera i użytkownika777), powinieneś to zrobić.
Powodem, dla którego chcę uczynić to nieco bardziej skomplikowanym, jest to, że już masz - po prostu nie powiedziałeś nam o całej komplikacji, to znaczy - liczenie wymaga czasu, a czas to także pieniądze . Ale jak dużo ? Może faktycznie taniej jest policzyć wszystko!
Tak więc to, co naprawdę robisz, to równoważenie czasu potrzebnego do policzenia z ilością zaoszczędzonych pieniędzy. (JEŚLI oczywiście grasz w tę grę tylko raz. NASTĘPNY czas, kiedy to się dzieje ze sprzedawcą, być może złapali się i wypróbowali nową sztuczkę. W teorii gier jest to różnica między grami Single Shot i Iterated Gry. Ale na razie udawajmy, że sprzedawca zawsze zrobi to samo.)
Jeszcze jedna rzecz, zanim przejdę do oszacowania. (I przepraszam, że tyle napisałem i wciąż nie dotarłem do odpowiedzi, ale to całkiem niezła odpowiedź na pytanie, co zrobiłby statystyk? Spędziliby mnóstwo czasu, upewniając się, że rozumieją każdą najmniejszą część problemu zanim czuli się swobodnie, mówiąc coś na ten temat.) I to jest wgląd oparty na następujących kwestiach:
(EDYCJA: JEŻELI SĄ RZECZYWIŚCIE OCHRONY ...) Twój sprzedawca nie oszczędza pieniędzy, usuwając etykiety - oszczędza pieniądze, nie drukując arkuszy. Nie mogą sprzedawać twoich etykiet innym osobom (zakładam). A może nie wiem i nie wiem, jeśli tak, nie mogą wydrukować pół arkusza twoich rzeczy i pół arkusza cudzych. Innymi słowy, zanim jeszcze zaczniesz liczyć, możesz założyć, że całkowita liczba etykiet jest równa
9000, 9100, ... 9900, or 10,000
. Na razie do tego podchodzę.Metoda całego arkusza
Kiedy problem jest trochę trudny, jak ten (dyskretny i ograniczony), wielu statystyk symuluje, co może się zdarzyć. Oto, co symulowałem:
To daje, zakładając, że używają całych arkuszy, a twoje założenia są poprawne, możliwą dystrybucję twoich etykiet (w języku programowania R).
Potem zrobiłem to:
Za pomocą metody „bootstrap” znaleziono przedziały ufności przy użyciu 4, 5, ... 20 próbek. Innymi słowy, jak średnio byś użył N próbek, jaki byłby twój przedział ufności? Używam tego, aby znaleźć odstęp, który jest wystarczająco mały, aby zdecydować o liczbie arkuszy, i to moja odpowiedź.
Przez „wystarczająco mały” mam na myśli, że mój przedział ufności 95% zawiera tylko jedną liczbę całkowitą - np. Jeśli mój przedział ufności wynosił [93.1, 94,7], to wybrałbym 94 jako prawidłową liczbę arkuszy, ponieważ wiemy, że to liczba całkowita.
KOLEJNA trudność - twoje zaufanie zależy od prawdy . Jeśli masz 90 arkuszy, a każdy stos ma 90 etykiet, to zbiegasz się naprawdę szybko. To samo z 100 arkuszami. Spojrzałem więc na 95 arkuszy, gdzie jest największa niepewność, i stwierdziłem, że aby mieć 95% pewności, potrzebujesz średnio około 15 próbek. Powiedzmy ogólnie, że chcesz pobrać 15 próbek, ponieważ nigdy nie wiesz, co naprawdę tam jest.
PO wiesz, ile próbek potrzebujesz, wiesz, że oczekiwane oszczędności wynoszą:
Ale powinieneś również obciążyć faceta za zmuszanie cię do wykonania całej tej pracy!
(EDYCJA: DODANA!) Podejście do arkusza częściowego
Okej, więc załóżmy, że to, co mówi producent, jest prawdziwe i nie jest zamierzone - kilka etykiet zgubiono w każdym arkuszu. Nadal chcesz wiedzieć, ile ogólnie etykiet?
Ten problem jest inny, ponieważ nie masz już przyjemnej, czystej decyzji, którą możesz podjąć - to była zaleta dla założenia Cały arkusz. Wcześniej było tylko 11 możliwych odpowiedzi - teraz jest ich 1100, a uzyskanie 95% przedziału ufności na dokładnie to, ile jest etykiet, prawdopodobnie pobierze znacznie więcej próbek, niż chcesz. Zobaczmy, czy możemy o tym myśleć inaczej.
Ponieważ tak naprawdę chodzi o to, abyś podjął decyzję, wciąż brakuje nam kilku parametrów - ile pieniędzy jesteś gotów stracić, w jednej umowie i ile pieniędzy kosztuje policzenie jednego stosu. Ale pozwól mi ustawić, co możesz zrobić z tymi liczbami.
Symulacja ponownie (chociaż rekwizyty dla użytkownika777, jeśli możesz to zrobić bez!), Warto spojrzeć na rozmiar interwałów, gdy używasz różnej liczby próbek. Można to zrobić w następujący sposób:
Który zakłada (tym razem), że każdy stos ma jednakowo losową liczbę etykiet od 90 do 100, i daje:
Oczywiście, gdyby rzeczy były naprawdę tak, jakby były symulowane, prawdziwa średnia wynosiłaby około 95 próbek na stos, co jest wartością niższą niż wydaje się być - tak naprawdę jest to jeden argument za podejściem bayesowskim. Ale daje użyteczne wyczucie, o ile bardziej pewny stajesz się w związku z odpowiedzią, gdy kontynuujesz próbowanie - i możesz teraz wyraźnie obniżyć koszty próbkowania z dowolną umową o wycenie.
O czym już wiem, wszyscy jesteśmy bardzo ciekawi, aby usłyszeć.
źródło
9000,9100...10000
na końcu wszystkie etykiety, możesz zastąpić logikę if,bucket <- sample(which(stacks!=100),1)
a następnie zawsze zwiększać stos.Jest to dość ograniczona próbka. (Fragmenty kodu znajdują się w R)
W celu wstępnego odgadnięcia oczekiwanej liczby w całej populacji i 95% wartości ufności dla ceny możemy zacząć od średniej i 5% kwantyla
Aby pójść dalej, będziemy musieli stworzyć model teoretyczny i poczynić dodatkowe założenia. Istnieje kilka źródeł niepewności - (1) niepewność dotycząca formy funkcjonalnej modelu wypełniania pakietów, (2) niepewność w szacowaniu parametrów modelu i (3) błąd próbkowania.
lambda
100*lambda
Teraz, zakładając, że każdy pakiet jest wypełniany niezależnie, możemy wyświetlać całe pudełko pakietów jako 10000 niezależnych zdarzeń, a nie 100 zdarzeń ze 100 podrzędnych zdarzeń. Średnia wynosi zatem 9717.138 przy standardowym odchyleniu 69.57153. Korzystanie z funkcji dystrybucji, można obliczyć 95% liczba zaufanie do około 9593. Użyłem pakiet R
VGAM
dla jego*betabinom.ab
funkcji w tym zakresie.Tak więc niepewność szacowanego parametru zmniejsza cenę ufności 95% o prawie 100, a my kończymy dość blisko naszego początkowego prostego przybliżenia.
Bez względu na podejście lub model, do walidacji modelu można wykorzystać dodatkowe dane, to znaczy, że dodatkowe dane są uzasadnione w modelu teoretycznym lub czy uzasadnione są korekty lub nowy model. Proces modelowania jest podobny do metody naukowej.
źródło
W skrócie, moją pierwszą skłonnością byłoby obliczenie 95% przedziału ufności dla twojej próbki średniej w stosunku do obciętego rozkładu normalnego mieszczącego się między dolną i górną granicą 90 i 100 etykiet.
Pakiet R
truncnorm
pozwala znaleźć przedziały ufności dla skróconego rozkładu normalnego przy podanej średniej próbki, odchyleniu standardowym próbki, dolnej granicy i górnej granicy.Ponieważ pobierasz próbkę n = 5 ze stosunkowo małej populacji (N = 100), możesz pomnożyć standardowe odchylenie próbki przez skończony współczynnik populacji = [(Nn) / (N-1)] ^. 5 = 0,98.
źródło
Szybkim i prostym podejściem jest rozważenie wszystkich możliwych próbek wielkości 6. Istnieje tylko 15 625 kombinacji. Patrząc na nie i biorąc średnią dla każdego przypadku, a następnie sortując średnie i wyodrębniając kwantyl 5%, otrzymujemy wartość 96.
Szacunkowa kwota, którą powinieneś zapłacić, to około 9600. Jest to zgodne z kilkoma bardziej zaawansowanymi podejściami.
Ulepszenie polegałoby na symulacji dużej liczby próbek o rozmiarze 6 i zastosowaniu tej samej procedury do znalezienia 5. percentyla średnich próbek. Używając nieco ponad miliona próbek, znalazłem 5. percentyl na poziomie 96,1667, więc dla najbliższego dolara zapłata wyniosłaby 9617 dolarów, co stanowi jedynie 2 dolary różnicy od wyniku użytkownika 7777 wynoszącego 9615.
źródło
Wygląda na to, że już doszedłeś do wniosku, że błąd został popełniony umyślnie, ale statystyki nie wyciągną takich wniosków (nawet jeśli dowody wydają się to potwierdzać).
Można to ustawić jako test hipotez:
H0: Krupier jest uczciwy, ale dość niechlujny
H1: Krupier jest nieuczciwy, a niedobór jest zamierzony.
Załóżmy H0, a następnie każde odchylenie jest zdarzeniem losowym o średniej = 0 i równej szansie na bycie dodatnim lub ujemnym. Załóżmy dalej, że odchylenia są zwykle rozkładane. Odchylenie standardowe dla rozkładu normalnego oparte na odchyleniach w 6 punktach danych wynosi sd = 1,722
Jeśli statystyk nie pamiętał zbyt dobrze swojej teorii, ale miał R w pobliżu (nie jest to mało prawdopodobny scenariusz), mógłby napisać następujący kod, aby sprawdzić prawdopodobieństwo braku dodatnich odchyleń (brak pakietów większych niż 100), jeśli H0 jest prawdziwe.
Wynikiem symulacji jest:
Prawdopodobieństwo, że dealer będzie uczciwy, wynosi tylko 5,35%, a zatem jest całkiem prawdopodobne, że padłeś ofiarą oszustwa.
Ponieważ mówisz, że nie jest to zadanie domowe, ale prawdziwa sytuacja dla Twojej firmy, przestaje to być ćwiczenie w obliczaniu poprawnych oczekiwanych etykiet liczbowych, ale jest to trudny przypadek, jak radzić sobie z nieuczciwym dostawcą.
Na to, co robisz stąd, nie da się odpowiedzieć wyłącznie na podstawie statystyk. To bardzo zależy od twojej dźwigni i relacji z dealerem.
Powodzenia !
Morten Bunes Gustavsen
źródło
A może coś w stylu modelu wielomianowego.
Prawdopodobieństwo każdego wyniku jest szacowane na 1/6, 1/6, .... (na podstawie 6 obserwacji), a więc E (x) = 97,16 i Var (x) = suma (95 ^ 2 * 1/6 + ...) - E (x) ^ 2 = 2,47, więc 95% CI wyniesie [94, 100]
źródło