Trudno mi było zrozumieć znaczenie „próbki losowej”, a także „iid zmienna losowa”. Próbowałem znaleźć znaczenie z kilku źródeł, ale coraz bardziej się myliłem. Publikuję tutaj to, co próbowałem i poznałem:
Prawdopodobieństwo i statystyki Degroot mówi:
Losowe próbki / iid / Sample Size: Rozważ podany rozkład prawdopodobieństwa na linii rzeczywistej, który może być reprezentowany przez pf lub pdf . Mówi się, że zmiennych losowych tworzą losową próbkę z tego rozkładu, jeśli te losowe zmienne są niezależne, a krańcowy pf lub pdf każdej z nich to . Mówi się, że takie zmienne losowe są niezależne i identycznie rozmieszczone, w skrócie iid. Liczbę n zmiennych losowych określamy jako wielkość próby.n x 1 , . . . , X n f
Ale jedna z innych książek statystycznych, które mam, mówi:
W losowym losowaniu gwarantujemy, że każda pojedyncza jednostka w populacji ma równe szanse (prawdopodobieństwo) wyboru.
Mam więc wrażenie, że iidy są elementami konstruującymi losową próbkę, a procedura losowej próby polega na losowym próbkowaniu. Czy mam rację?
PS: Jestem bardzo zdezorientowany w tym temacie, więc docenię szczegółową odpowiedź. Dzięki.
źródło
Odpowiedzi:
Nie mówisz, co to jest inna książka statystyczna, ale zgaduję, że jest to książka (lub sekcja) o ograniczonym próbkowaniu populacji .
Kiedy próbujesz zmiennych losowych, tj. Kiedy rozważasz zbiór z n zmiennych losowych, wiesz, że jeśli są one niezależne, f ( x 1 , … , x n ) = f ( x 1 ) ⋯ f ( x n ) i identycznie rozmieszczone , w szczególności E ( X i ) = μ i Var ( X i )X1, … , Xn n fa( x1, … , Xn) =f( x1) ⋯f(xn) mi( Xja) = μ dla wszystkich i , a następnie:
¯ X = ∑ i X iVar(Xi)=σ2 i
gdzieσ2jest drugim centralnym momentem.
Próbkowanie skończonej populacji jest nieco inne. Jeśli populacja ma rozmiar , w pobieraniu próbek bez zastępowania występują ( NN możliwe próbkisio wielkościni są one równoważne:
p(si)=1(Nn) si n
Na przykład, jeśliN=5in=3, przestrzeń próbki wynosi{s1,…,s10},
a możliwe próbki to:
s 1 ={1,2,3}, s 2 ={1,2,4}, s 3 ={1,2,5}, s 4
Niech będzie średnią z polulacji (średni wzrost, średni dochód, ...). Gdy n < N , możesz oszacować μ jak w losowym próbkowaniu zmiennych: ¯ y s = n ∑ i = 1 y i ,μ n<N μ
ale średnia wariancja próbki jest inna:
Var ( ¯ y s ) = ˜ σ 2
Jest to szybki przykład różnic między próbką losową (zmienną losową) a próbką losową (populacja skończona). Wnioskowanie statystyczne dotyczy głównie losowego próbkowania zmiennych, teoria próbkowania dotyczy próbkowania w populacji skończonej.
źródło
Nie zanudzę cię probabilistycznymi definicjami i formułami, które możesz łatwo znaleźć w dowolnym podręczniku (lub tutaj jest dobre miejsce na początek)
źródło
Zmienna losowa zwykle zapisywana jako X, jest zmienną, której możliwymi wartościami są wyniki liczbowe zjawiska losowego. Zjawisko losowe może dawać wyniki, których wartości liczbowe są rejestrowane przez zmienną losową - liczba głów w 10 rzutach monety lub dochód / wysokość itp. W próbce - ale nie jest to konieczne.
Bardziej ogólnie, zmienna losowa jest funkcją, która odwzorowuje losowe wyniki na wartości liczbowe. Np. Każdy dzień może być słoneczny, pochmurny lub deszczowy. Możemy zdefiniować zmienną losową, która przyjmuje wartość 1, jeśli jest deszczowo, 2, jeśli jest pochmurnie, i 3, jeśli jest słonecznie. Dziedziną zmiennej losowej jest zestaw możliwych wyników.
Aby ustalić zmienną losową, musi istnieć proces lub eksperyment związany z możliwymi rezultatami, których nie można z całą pewnością przewidzieć.
Przechodzę teraz do kwestii niezależności. Dwie zmienne losowe są niezależne, jeśli wartość jednej z nich nie wpływa na plik PDF drugiej. Nie zmieniamy naszych przewidywań dotyczących prawdopodobieństwa różnych wartości jednej zmiennej, gdy wiemy coś o drugiej zmiennej. Dlatego w przypadku niezależności tylne pliki PDF są identyczne z wcześniejszymi plikami PDF. Np. Kiedy wielokrotnie rzucamy obiektywną monetą, informacje, które posiadamy na temat wyniku 5 poprzednich rzutów, nie wpływają na nasze prognozy dotyczące bieżącego rzutu, zawsze będą to 0,5. Jeśli jednak stronniczość monety jest nieznana i jest modelowana jako zmienna losowa, wynik poprzednich 5 rzutów wpływa na nasze prognozy dotyczące bieżącego rzutu, ponieważ pozwala nam wnioskować na temat nieznanego obciążenia monety.
Przechodzę teraz do kwestii próbkowania. Celem próbkowania jest poinformowanie nas o właściwościach rozkładu podstawowego, który nie jest znany i należy go wywnioskować. Pamiętaj, że Rozkład odnosi się do względnego prawdopodobieństwa możliwych wyników w Przestrzeni Próbki (która może być również Wszechświatem Warunkowym). Więc kiedy próbkujemy, wybraliśmy skończoną liczbę wyników z przestrzeni próbki i odtwarzamy przestrzeń próbki w mniejszej, łatwiejszej do zarządzania skali. Równe prawdopodobieństwo odnosi się zatem do procesu pobierania próbek, a nie do prawdopodobieństwa wyników w próbce. Próbkowanie z jednakowym prawdopodobieństwem oznacza, że próbka będzie odzwierciedlać proporcje wyników w oryginalnej przestrzeni próbki. Np. Jeśli zapytamy 10, 000 osób, gdyby kiedykolwiek zostali aresztowani, prawdopodobne jest, że próbka, którą skończymy, nie będzie reprezentatywna dla populacji - przestrzeni próbnej - ponieważ osoby, które zostałyby aresztowane, mogą odmówić odpowiedzi, a zatem odsetek możliwych wyników (aresztowani - nie aresztowani) będą się różnić między naszą próbką a populacją z powodów systemowych. Lub jeśli wybramy konkretną okolicę do przeprowadzenia ankiety, wyniki nie będą reprezentatywne dla Miasta jako całości. Próbkowanie z jednakowym prawdopodobieństwem implikuje, że nie ma żadnych systemowych powodów - poza czystą przypadkowością - co pozwala nam wierzyć, że proporcje możliwych wyników w naszej próbie różnią się od proporcji wyników w populacji / przestrzeni próbki. dlatego odsetek możliwych wyników (aresztowanych - nie aresztowanych) będzie się różnić między naszą próbą a populacją z powodów systemowych. Lub jeśli wybramy konkretną okolicę do przeprowadzenia ankiety, wyniki nie będą reprezentatywne dla Miasta jako całości. Próbkowanie z jednakowym prawdopodobieństwem implikuje, że nie ma żadnych systemowych powodów - poza czystą przypadkowością - co pozwala nam wierzyć, że proporcje możliwych wyników w naszej próbie różnią się od proporcji wyników w populacji / przestrzeni próbki. dlatego odsetek możliwych wyników (aresztowanych - nie aresztowanych) będzie się różnić między naszą próbą a populacją z powodów systemowych. Lub jeśli wybramy konkretną okolicę do przeprowadzenia ankiety, wyniki nie będą reprezentatywne dla Miasta jako całości. Próbkowanie z jednakowym prawdopodobieństwem implikuje, że nie ma żadnych systemowych powodów - poza czystą przypadkowością - co pozwala nam wierzyć, że proporcje możliwych wyników w naszej próbie różnią się od proporcji wyników w populacji / przestrzeni próbki.
źródło
Losowa próbka jest realizacją sekwencji zmiennych losowych. Te losowe zmienne mogą być iid lub nie.
źródło