Czy rozkład prawdopodobieństwa urny zmienia się, gdy czerpiesz z niej średnio bez zamiany?

9

Załóżmy, że mam urnę zawierającą N różnych kolorów kulek, a każdy inny kolor może pojawić się różną liczbę razy (jeśli jest 10 czerwonych kulek, nie musi też być 10 niebieskich kulek). Jeśli znamy dokładną zawartość urny przed narysowaniem, możemy utworzyć dyskretny rozkład prawdopodobieństwa, który mówi nam o prawdopodobieństwie narysowania każdego koloru kuli. Co Zastanawiam się, w jaki sposób zmienia się rozkład rysunek po k kul bez zwracania z urny średnio. Rozumiem, że kiedy czerpiemy z urny, możemy zaktualizować rozkład o wiedzę o tym, co zostało wyjęte, ale chcę wiedzieć, jaki jest kształt rozkładu po usunięciu k kulek. Czy rozkład zmienia się średnio czy pozostaje taki sam? Jeśli nie pozostanie taki sam, czy możemy zapisać wzór na to, jak nowy rozkład będzie wyglądał średnio po wykonaniu remisów?

mjnichol
źródło
1
Mogę się mylić - ale wydaje się, że ktoś zna wcześniejszą dystrybucję, ale nie ma informacji o prawdopodobieństwie (poza tym, że k kule są usuwane). w takim przypadku - zakładam, że tył jest równy pierwszemu. Szczerze mówiąc - istnieje informacja o prawdopodobieństwie, że liczba kulek spadła i że (dla jednej usuniętej piłki) rozkład jest stąd np. Bimodalny między 50% prawdopodobieństwem 9 czerwonych i 10 czarnych i 50% prawdopodobieństwem 10 czerwonych i 9 czarnych . nie mogę się jednak mylić
Wouter
Moja intuicja jest to, że jak tym ostatnim przypadku, który opisałeś. Nie mogę jednak znaleźć nikogo, kto mówiłby o tego rodzaju procesie.
mjnichol

Odpowiedzi:

7
  1. „Obliczenia bezpośrednie”: niech będzie n kulki z mkolory w urnie. Skupmy się na prawdopodobieństwie narysowania jednego konkretnego koloru, powiedzmy białego , na drugim losowaniu. Niech liczba białych kulek będzienw. PozwolićXi być kolorem piłki uzyskanym na i-te losowanie.

    P(X2=W)=P(X2=W|X1=W)P(X1=W)+P(X2=W|X1=W¯)P(X1=W¯)=nw1n1nwn+nwn1nnwn=nw(nnw+nw1)n(n1)=nwn=P(X1=W)

    Oczywiście ten sam argument dotyczy dowolnego koloru na drugim losowaniu. Możemy zastosować ten sam rodzaj argumentów rekurencyjnie, rozważając późniejsze losowania.

    [Można oczywiście wykonać jeszcze bardziej bezpośrednie obliczenia. Rozważ pierwszyk losuje jako składający się z i białe kulki i ki kulki inne niż białe (z prawdopodobieństwem określonym przez rozkład hipergeometryczny) i wykonaj odpowiednie obliczenia do prostej powyżej, ale dla losowania na etapie k+1; otrzymuje się podobne uproszczenie i anulowanie, ale nie jest to szczególnie pouczające.]

  2. Krótszy argument: rozważ losowe oznaczenie kulek liczbami 1,2,...,n, a następnie wyciągając je w kolejności oznaczonej. Pytanie brzmi teraz: „Czy prawdopodobieństwo, że dana etykieta,k, umieszcza się na białej kuli, tak jak prawdopodobieństwo etykiety 1 zostaje umieszczony na białej piłce? ”

    Teraz widzimy, że odpowiedź musi brzmieć „tak” przez symetrię etykiet. Podobnie przez symetrię kolorów kulek nie ma znaczenia, że ​​powiedzieliśmy „biały”, więc argument tej etykietyk i etykieta 1mieć to samo prawdopodobieństwo dotyczy dowolnego koloru. Stąd rozkład wk- remis jest taki sam, jak w przypadku pierwszego losowania, o ile nie mamy dodatkowych informacji z wcześniejszych losowań (o ile nie widać wcześniejszych losowanych piłek).

Glen_b - Przywróć Monikę
źródło
Kolejny krótki argument ściśle związany z twoim drugim sposobem: wyobraź sobie zestaw wszystkich możliwych sekwencji, w których kulki można usunąć (np. Najpierw niebieski, potem biały, potem biały ... może to być jedna z takich sekwencji). Jeśli dla każdej sekwencji w tym zestawie zamienimy1st i kthelementy, po prostu permutujemy zestaw. Tak więc dla każdej sekwencji z białą (lub inną) piłką w pozycjik, jest dokładnie jedna odpowiednia sekwencja z białą kulką w pozycji 1. Stąd prawdopodobieństwo, że biała kula znajdzie się w pozycjik lub pozycja 1musi być taki sam. Myślę, że jest to zasadniczo argument Neila.
Silverfish,
@Silverfish Tak, patrząc na to, mój drugi argument jest zasadniczo tym samym rodzajem argumentu, co argument permutacyjny Neila.
Glen_b
Dziękuję za wyjaśnienie. Właśnie to musiałem zobaczyć!
mjnichol
6

Jedynym powodem, dla którego nie jest całkowicie oczywiste, że rozkład pozostaje niezmieniony (pod warunkiem , że pozostanie co najmniej jedna kula), jest to, że jest za dużo informacji. Usuńmy rozpraszający materiał.

Zignoruj ​​na chwilę kolor każdej piłki. Skoncentruj się na jednej piłce. Założyćk kule będą losowo usuwane (i nie będą obserwowane), a następnie a k+1piłka zostanie narysowana i obserwowana. Nie ma znaczenia, w jakiej kolejności następuje selekcja, więc równie dobrze możesz obserwować pierwszą wyciągniętą piłkę (a następnie usunąć innąkpiłki, jeśli nalegasz). Rozkład oczywiście się nie zmienił, ponieważ usunięcie drugiego nie wpłynie na tok kulki.


Ten argument - choć całkowicie poprawny - może sprawić, że niektórzy poczują się nieswojo. Poniższa analiza może zostać zaakceptowana jako bardziej rygorystyczna, ponieważ nie wymaga od nas ignorowania kolejności selekcji.

Koncentruj się na swojej piłce. Będzie to miało pewne prawdopodobieństwopk bycia wybranym jako k+1St Ball. Mimo żepkjest łatwy do obliczenia, nie musimy znać jego wartości: liczy się tylko to, że musi być taka sama dla każdej piłki (ponieważ wszystkie są równoważne) i że musi być niezerowa. Ale gdyby było zero, żadna kula nie miałaby żadnego prawdopodobieństwa wyboru: tak długo, jak pozostaje co najmniej jedna piłka,pk0.

Ponownie zwróć uwagę na kolory. Z definicji szansa, że ​​dany kolorC zostanie wybrany (po k kule są losowo usuwane) to suma szans całego oryginału C-kolorowe piłki podzielone przez sumę szans wszystkich oryginalnych piłek. Kiedy są pierwotniekC kule kolorów C i n kule ogółem, ta wartość to

Prk(C)=kcpknpk=kcn.

Kiedy nie zależy od , QED .k<nk

Whuber
źródło
Dziękuje za komentarz. Pomogło mi to lepiej zrozumieć podstawowe procesy!
mjnichol
2

Niech rozkład rysowania pojedynczej piłki - po uprzednim narysowaniuk kulek bez zamiany - ma rozkład kategorycznyE(Dk) biorąc pod uwagę rozkład na takie podzielone kategorie Dk.

Chyba pytasz czy E(Dk) jest stały.

Myślę, że to jest. Załóżmy, że ostatecznie narysujesz wszystkie kulki. Wszystkie permutacje piłek są równie prawdopodobne. Prawdopodobieństwo losowania na początku jestE(D0). Możesz zmienić swoje wybory na równie prawdopodobne permutacje, w których pierwsza wybrana piłka zostanie wybrana jako ostatnia, a druga wybrana jako pierwsza. Ta piłka ma oczekiwaniaE(D1), który musi być równy E(D0)z powodu symetrii. Przez indukcjęE(Di) są równe.

Neil G.
źródło
Masz na myśli, że pytam, czy E(Dk)jest stały dla każdego k, prawda?
mjnichol
@mjnichol prawo
Neil G
0

„Oczekiwany rozkład” nie zmienia się. Przydałby się argument martingale! Taką odpowiedź dodam później (podróżuję teraz).

Rozkład, zależny od wcześniejszych losowań (dla późniejszych losowań) zmienia się tylko wtedy, gdy faktycznie obserwujesz losowania. Jeśli wyciągniesz piłkę z urny szczelnie zamkniętą ręką, a następnie wyrzucisz ją bez obserwowania jej koloru (wykorzystałem taki teatr skutecznie jak demonstracja klasowa), rozkład się nie zmieni. Ten fakt ma wyjaśnienie: prawdopodobieństwo dotyczy informacji, prawdopodobieństwo jest pojęciem informacyjnym.

Prawdopodobieństwa zmieniają się tylko wtedy, gdy otrzymasz nowe informacje (czyli prawdopodobieństwa warunkowe). Wyciąganie piłki i wyrzucanie jej bez obserwacji nie daje żadnych nowych informacji, więc nie ma na czym polegać. Więc jeśli warujesz na rzeczywisty zestaw informacji, to się nie zmieniło, więc rozkład warunkowy nie może się zmienić.

 EDIT

Nie podam teraz więcej szczegółów w tej odpowiedzi, dodam tylko jedno odniesienie: Hosam M. Mahmoud: „Modele urny Pólya” (Chapman i Hall), która traktuje modele urn jak w tym pytaniu, a także znacznie bardziej uogólnioną urnę schematy, również przy użyciu metod martingale w celu uzyskania wyników granicznych. Ale metody martingale nie są potrzebne do pytania w tym poście.

kjetil b halvorsen
źródło
Rozkład (dla późniejszych losowań) nie zmienia się, nawet jeśli faktycznie obserwujesz losowania. Dlaczego obserwowanie czegokolwiek powinno coś zmieniać?
Neil G,
1
@Neil Myślę, że kjetil odnosi się do rozkładu zależnego od zaobserwowanych losowań .
Silverfish,
@Silverfish: Ach, rozumiem. Masz rację, przepraszam.
Neil G
Przeredaguję, aby wyjaśnić, kiedy będę w domu za około dwa tygodnie. Na razie wakacje w Wenecji ...
kjetil b halvorsen