Czy istnieje formalny dowód matematyczny, że roztwór do zbiornika Problem niemiecki jest funkcją tylko do parametrów k (liczba obserwowanych próbek) i m (maksymalna wartość spośród obserwowanych próbek)? Innymi słowy, czy można udowodnić, że rozwiązanie jest niezależne od innych wartości próbki oprócz wartości maksymalnej?
mathematical-statistics
sufficient-statistics
Bogdan Alexandru
źródło
źródło
Odpowiedzi:
Prawdopodobieństwo
Typowe problemy w teorii prawdopodobieństwa odnoszą się do prawdopodobieństwa obserwacjix1,x2,...,xn biorąc pod uwagę określony model i parametry (nazwijmy je θ ). Na przykład prawdopodobieństwo wystąpienia konkretnych sytuacji w grach karcianych lub w kości jest często bardzo proste.
Jednak w wielu praktycznych sytuacjach mamy do czynienia z sytuacją odwrotną ( statystyki wnioskowania ). Czyli: obserwacjax1, x2), . . . , xk podany jest i teraz model jestnieznany, a przynajmniej nie wiemy, pewne parametryθ .
W tego typu problemów, które często odnoszą się do pojęcia zwanego prawdopodobieństwo parametrów,L ( θ ) , co stanowi wskaźnik wierzą w Paramerty θ podano obserwacje x1, x2), . . xk . Ta wartość jest wyrażona jako proporcjonalna do prawdopodobieństwa dla obserwacji x1, x2), . . xk zakładając, że parametr modelu θ byłby hipotetycznie prawdziwy. L (θ, x1, x2), . . xk) Observ obserwacje prawdopodobieństwa x1, x2), . . xk dane θ
Dla danej wartości parametruθ bardziej prawdopodobny pewnej obserwacji x1,x2), . .xn jest (w stosunku do prawdopodobieństwa dla innych wartości parametru), tym bardziej obserwacja obsługuje ten konkretny parametr (lub teorię / hipotezę, która zakłada ten parametr). (Względnie) wysokie prawdopodobieństwo wzmocni nasze przekonania na temat tej wartości parametru (jest o tym więcej filozoficzne do powiedzenia na ten temat).
Prawdopodobieństwo wystąpienia problemu niemieckiego czołgu
Teraz do problemu niemieckiego zbiornika funkcja prawdopodobieństwa dla zbioru próbekx1, x2), . . xk to:
To, czy zaobserwujesz próbki {1, 2, 10} czy próbki {8, 9, 10}, nie powinno mieć znaczenia, kiedy próbki zostaną wzięte z równomiernego rozkładu z parametremθ . Obie próbki są jednakowo prawdopodobne z prawdopodobieństwem ( θ3))- 1 i używając idei prawdopodobieństwa, jedna próbka nie mówi więcej o parametrzeθ niż druga próbka.
Wysokie wartości {8, 9, 10} mogą sprawić, że pomyślisz / uwierzysz, żeθ powinno być wyższe. Ale to tylko wartość {10}, która naprawdę daje ci istotne informacje o prawdopodobieństwie θ (wartość 10 mówi ci, że θ będzie dziesięć lub więcej, pozostałe wartości 8 i 9 nic nie przyczyniają się do tej informacji).
Twierdzenie Fizjona Neymana
To twierdzenie mówi ci, że pewna statystykaT.( x1, x2),…,xk) (tj. Niektóre funkcje obserwacji, takie jak średnia, mediana lub jak w niemieckim problemie ze zbiornikiem maksimum) jest wystarczająca (zawiera wszystkie informacji) kiedy można wyliczyć, w funkcji prawdopodobieństwa, terminy, które są zależne od innych obserwacji x1,x2,…,xk , tak że ten współczynnik nie zależy zarówno od parametru θ i x1,x2,…,xk (i część funkcji prawdopodobieństwa, która wiąże dane z hipotetycznymi wartościami parametrów, zależy tylko od statystyki, ale nie od całości danych / obserwacji).
Problem niemieckiego czołgu jest prosty. Widać powyżej, że całe wyrażenie prawdopodobieństwa powyżej to już zależy tylko od statystycznegomax(x1,x2,..xk) i reszta wartości x1, x2), . . xk nie ma znaczenia.
Mała gra jako przykład
Powiedzmy, że gramy następującą grę wielokrotnie:θ sama jest zmienną losową i wyciągnąć z równym prawdopodobieństwem 100 albo 110. Następnie rysujemy próbki x1, x2), . . . , xk .
Chcemy wybrać strategię zgadywaniaθ , w oparciu o obserwowane x1, x2), . . . , xk która maksymalizuje nasze prawdopodobieństwo prawidłowego odgadnięcia θ .
Właściwą strategią będzie wybranie 100, chyba że jedna z liczb w próbie jest> 100.
Moglibyśmy być kuszeni, aby wybrać wartość parametru 110 już przy wielu zx1, x2), . . . , xk wydają się być wszystkie wysokie wartości blisko stu (ale nikt dokładnie ponad sto), ale to byłoby źle. Prawdopodobieństwo takiej obserwacji będzie większe, gdy prawdziwa wartość parametru wynosi 100 niż gdy wynosi 110. Jeśli więc zgadniemy, w takiej sytuacji 100 jako wartość parametru, wówczas mniej prawdopodobne jest popełnienie błędu (ponieważ sytuacja, w której te wysokie wartości są bliskie setce, ale wciąż poniżej, występuje częściej w przypadku, gdy prawdziwa wartość wynosi 100, niż w przypadku, gdy prawdziwa wartość wynosi 110).
źródło
Nie przedstawiłeś dokładnego sformułowania „problemu”, więc nie jest do końca jasne, o co chcesz udowodnić. Z perspektywy bayesowskiej prawdopodobieństwo a posteriori zależy od wszystkich danych. Jednak każda obserwacja określonego numeru seryjnego najbardziej poprze ten numer. To znaczy, biorąc pod uwagę wszelkie uwagin , iloraz szans między tylnym a przednim będzie większy dla hipotezy „rzeczywista liczba czołgów jest n „niż będzie” rzeczywista liczba zbiorników wynosi [liczba inna niż n ] ". Zatem jeśli zaczniemy od munduru przed, to n będzie miał najwyższy tył po zobaczeniu tej obserwacji.
Rozważ przypadek, w którym mamy punkt danych13 i hipotezy N.= 10 , 13 , 15 . Oczywiście późniejszyN.= 10 wynosi zero. I nasi boczni dlaN.= 13 , 15 będą większe niż ich wcześniejsze. Powodem tego jest to, że w rozumowaniu bayesowskim brak dowodów jest dowodem braku. Za każdym razem mamy okazję, gdzie mógłby wykonany spostrzeżenie, że zmniejszyłaby naszą prawdopodobieństwo, ale nie, zwiększa prawdopodobieństwa. Odkąd mogliśmy zobaczyć16 , na co postawilibyśmy naszych późniejszych N.= 13 , 15 do zera, fakt, że tego nie widzieliśmy, oznacza, że powinniśmy zwiększyć liczbę naszych posteriorów N.= 13 , 15 . Pamiętaj jednak, że im mniejsza liczba, tym więcej liczb mogliśmy zobaczyć, co wykluczałoby tę liczbę. DlaN.= 13 odrzucilibyśmy tę hipotezę po zobaczeniu 14,15,16,... . But for N=15 , we would have needed at least 16 to reject the hypothesis. Since the hypothesis N=13 is more falsifiable than N=15 , the fact that we didn't falsify N=13 is more evidence for N=13 , than not falsifying N=15 is evidence for N=15 .
So every time we see a data point, it sets the posterior of everything below it to zero, and increases the posterior of everything else, with smaller numbers getting the largest boost. Thus, the number that gets the overall largest boost will be the smallest number whose posterior wasn't set to zero, i.e. the maximum value of the observations.
Liczby mniejsze niż maksymalna wpływają na to, jak bardzo większe doładowanie uzyskuje maksimum, ale nie wpływa to na ogólny trend maksymalnego uzyskiwania największego doładowania. Rozważ powyższy przykład, w którym już widzieliśmy13 . Jeśli następnym numerem, który zobaczymy, jest5 jaki to będzie miało wpływ? Pomaga5 więcej niż 6 , ale obie liczby zostały już odrzucone, więc nie ma to znaczenia. Pomaga13 więcej niż 15 , ale 13 już pomógł bardziej niż 15 , więc nie wpływa to na to, na którą liczbę najbardziej pomógł.
źródło