Czy synonimy „losowa próbka” i „iid losowa zmienna” są synonimami?

18

Trudno mi było zrozumieć znaczenie „próbki losowej”, a także „iid zmienna losowa”. Próbowałem znaleźć znaczenie z kilku źródeł, ale coraz bardziej się myliłem. Publikuję tutaj to, co próbowałem i poznałem:

Prawdopodobieństwo i statystyki Degroot mówi:

Losowe próbki / iid / Sample Size: Rozważ podany rozkład prawdopodobieństwa na linii rzeczywistej, który może być reprezentowany przez pf lub pdf . Mówi się, że zmiennych losowych tworzą losową próbkę z tego rozkładu, jeśli te losowe zmienne są niezależne, a krańcowy pf lub pdf każdej z nich to . Mówi się, że takie zmienne losowe są niezależne i identycznie rozmieszczone, w skrócie iid. Liczbę n zmiennych losowych określamy jako wielkość próby.n x 1 , . . . , X n ffanX1,...,Xnfa

Ale jedna z innych książek statystycznych, które mam, mówi:

W losowym losowaniu gwarantujemy, że każda pojedyncza jednostka w populacji ma równe szanse (prawdopodobieństwo) wyboru.

Mam więc wrażenie, że iidy są elementami konstruującymi losową próbkę, a procedura losowej próby polega na losowym próbkowaniu. Czy mam rację?

PS: Jestem bardzo zdezorientowany w tym temacie, więc docenię szczegółową odpowiedź. Dzięki.

Cichy
źródło
6
Część niezależności jest bardzo ważna, ponieważ możemy mieć próbkę, w której wszystkie zmienne są identycznie rozmieszczone (mają ten sam rozkład krańcowy), ale nie są niezależne. Taką próbkę nadal można uznać za próbkę losową, ale nie z eksperymentu, o którym myślisz, że jest próbką losową. Zobacz to pytanie .
Dilip Sarwate
Pytanie wydaje się nie mieć sensu statystycznego. Próbka losowa i losowa są wyraźnie odrębnymi pojęciami ustalonymi przez piśmiennictwo.
Subhash C. Davar
2
@ subhashc.davar Czy oni są? Zgodnie z jedną definicją: „Próbka losowa jest sekwencją niezależnych zmiennych losowych o identycznym rozkładzie (IID)”. Więc wygląda na to, że iid i losowa próbka to to samo? Cytowany akapit w prawdopodobieństwie i statystykach Degroot w zasadzie mówi to samo. Uważam to za mylące, ponieważ „próbka” jest czasem jednostką lub zbiorem jednostek, a czasem sekwencją zmiennych losowych.
Gary Chang,
@Gary Chang Definicja, którą zacytowałeś, dotyczy pdf. Próbka zmiennych losowych była popularna w dyscyplinie psychometrii. Zasadniczo stosuje się go w odniesieniu do oceny wiarygodności lub ważności oraz do analizy czynnikowej. Psychometria jest zainteresowana ustaleniem równoważności testów dla dziedziny. Koncepcja iid wydaje się pochodzić z algebry liniowej. Próbka może pochodzić z danej populacji osób i / lub z populacji (losowych) zmiennych, w zależności od celu badania. Wydaje się, że obecne statystyki zapożyczone z teorii pomiaru.
Subhash C. Davar,

Odpowiedzi:

9

Nie mówisz, co to jest inna książka statystyczna, ale zgaduję, że jest to książka (lub sekcja) o ograniczonym próbkowaniu populacji .

Kiedy próbujesz zmiennych losowych, tj. Kiedy rozważasz zbiór z n zmiennych losowych, wiesz, że jeśli są one niezależne, f ( x 1 , , x n ) = f ( x 1 ) f ( x n ) i identycznie rozmieszczone , w szczególności E ( X i ) = μ i Var ( X i )X1,,Xnnfa(x1,,xn)=fa(x1)fa(xn)mi(Xja)=μ dla wszystkich i , a następnie: ¯ X = i X iVar(Xi)=σ2ja gdzieσ2jest drugim centralnym momentem.

X¯=iXin,E(X¯)=μ,Var(X¯)=σ2n
σ2

Próbkowanie skończonej populacji jest nieco inne. Jeśli populacja ma rozmiar , w pobieraniu próbek bez zastępowania występują ( NN możliwe próbkisio wielkościni są one równoważne: p(si)=1(Nn)sin Na przykład, jeśliN=5in=3, przestrzeń próbki wynosi{s1,,s10}, a możliwe próbki to: s 1 ={1,2,3}, s 2 ={1,2,4}, s 3 ={1,2,5}, s 4

p(si)=1(Nn)i=1,,(Nn)
N=5n=3{s1,,s10} Jeśli policzysz liczbę wystąpień każdej osoby, możesz zobaczyć, że jest ich sześć, tzn. Każda osoba ma równe szanse bycia wybranym (6/10). Tak więc każdesijest losową próbką zgodnie z drugą definicją. Mniej więcej, nie jest to iid próba losowa, ponieważ ludzie są zmienne nie losowe: można konsekwentnie oszacowaćE[X]przez próbkę średnią, ale nigdy nie będą znali jego dokładną wartość, alemożeznać dokładną średnią zaludnienia jeślin=N(niech powtarzam: z grubsza.)
s1={1,2,3},s2={1,2,4},s3={1,2,5},s4={1,3,4},s5={1,3,5},s6={1,4,5},s7={2,3,4},s8={2,3,5},s9={2,4,5},s10={3,4,5}
siE[X]n=N1

Niech będzie średnią z polulacji (średni wzrost, średni dochód, ...). Gdy n < N , możesz oszacować μ jak w losowym próbkowaniu zmiennych: ¯ y s = n i = 1 y i ,μn<Nμ ale średnia wariancja próbki jest inna: Var ( ¯ y s ) = ˜ σ 2

y¯s=i=1nyi,E(y¯s)=μ
gdzie ˜ σ 2jest quasi-wariancją populacji: N i = 1 (yi- ¯ y )2
Var(y¯s)=σ~2n(1nN)
σ~2 . Współczynnik(1-n/N)jest zwykle nazywany „skończonym współczynnikiem korygującym populację”.i=1N(yiy¯)2N1(1n/N)

Jest to szybki przykład różnic między próbką losową (zmienną losową) a próbką losową (populacja skończona). Wnioskowanie statystyczne dotyczy głównie losowego próbkowania zmiennych, teoria próbkowania dotyczy próbkowania w populacji skończonej.


1i zinterpretować zestaw żarówek jako próbkę (zmienna losowa). Powiedz teraz, że znajdziesz pudełko 1000 żarówek i chcesz poznać ich średnią długość życia. Możesz wybrać mały zestaw żarówek (skończona próbka populacji), ale możesz wybrać wszystkie z nich. Jeśli wybierzesz małą próbkę, nie przekształcisz żarówek w zmienne losowe: zmienna losowa jest generowana przez Ciebie, ponieważ wybór pomiędzy „wszystkim” a „małym zestawem” zależy od ciebie. Jednakże, gdy populacja skończona jest bardzo duża (powiedzmy populacja kraju), przy wyborze „wszystko” nie jest opłacalne, drugą sytuacją lepiej poradzić sobie jako pierwszą.

Sergio
źródło
1
Co masz na myśli: „osoby nie są zmiennymi losowymi?” Whuber ma kilka naprawdę dobrych odpowiedzi tutaj i tutaj , które wykorzystują próbkowanie populacji skończonej wyjaśnić pojęcie zmiennej losowej.
jsk
n=N.
n=N.
Obronny? Nie zrozumiałeś tych linków. Jak mówi Whubner: a) model biletów w pudełku to tylko zabawkowy przykład, aby uniknąć narzekania na „rzeczy na poziomie magisterskim”; b) unika nazywania biletów „populacją” w pudełku i wyjaśnia, dlaczego. Więc nie ma sprzeczności . Jeśli można zrozumieć, co powiedział Whubner. BTW, nie jestem zmienną losową, prawda?
Sergio
Oczywiście IMHO.
Sergio
2

Nie zanudzę cię probabilistycznymi definicjami i formułami, które możesz łatwo znaleźć w dowolnym podręczniku (lub tutaj jest dobre miejsce na początek)

ja.ja.re.how

ja.ja.re

ja.ja.re.

Alex Kreimer
źródło
1

Zmienna losowa zwykle zapisywana jako X, jest zmienną, której możliwymi wartościami są wyniki liczbowe zjawiska losowego. Zjawisko losowe może dawać wyniki, których wartości liczbowe są rejestrowane przez zmienną losową - liczba głów w 10 rzutach monety lub dochód / wysokość itp. W próbce - ale nie jest to konieczne.
Bardziej ogólnie, zmienna losowa jest funkcją, która odwzorowuje losowe wyniki na wartości liczbowe. Np. Każdy dzień może być słoneczny, pochmurny lub deszczowy. Możemy zdefiniować zmienną losową, która przyjmuje wartość 1, jeśli jest deszczowo, 2, jeśli jest pochmurnie, i 3, jeśli jest słonecznie. Dziedziną zmiennej losowej jest zestaw możliwych wyników.
Aby ustalić zmienną losową, musi istnieć proces lub eksperyment związany z możliwymi rezultatami, których nie można z całą pewnością przewidzieć.

Przechodzę teraz do kwestii niezależności. Dwie zmienne losowe są niezależne, jeśli wartość jednej z nich nie wpływa na plik PDF drugiej. Nie zmieniamy naszych przewidywań dotyczących prawdopodobieństwa różnych wartości jednej zmiennej, gdy wiemy coś o drugiej zmiennej. Dlatego w przypadku niezależności tylne pliki PDF są identyczne z wcześniejszymi plikami PDF. Np. Kiedy wielokrotnie rzucamy obiektywną monetą, informacje, które posiadamy na temat wyniku 5 poprzednich rzutów, nie wpływają na nasze prognozy dotyczące bieżącego rzutu, zawsze będą to 0,5. Jeśli jednak stronniczość monety jest nieznana i jest modelowana jako zmienna losowa, wynik poprzednich 5 rzutów wpływa na nasze prognozy dotyczące bieżącego rzutu, ponieważ pozwala nam wnioskować na temat nieznanego obciążenia monety.

Przechodzę teraz do kwestii próbkowania. Celem próbkowania jest poinformowanie nas o właściwościach rozkładu podstawowego, który nie jest znany i należy go wywnioskować. Pamiętaj, że Rozkład odnosi się do względnego prawdopodobieństwa możliwych wyników w Przestrzeni Próbki (która może być również Wszechświatem Warunkowym). Więc kiedy próbkujemy, wybraliśmy skończoną liczbę wyników z przestrzeni próbki i odtwarzamy przestrzeń próbki w mniejszej, łatwiejszej do zarządzania skali. Równe prawdopodobieństwo odnosi się zatem do procesu pobierania próbek, a nie do prawdopodobieństwa wyników w próbce. Próbkowanie z jednakowym prawdopodobieństwem oznacza, że ​​próbka będzie odzwierciedlać proporcje wyników w oryginalnej przestrzeni próbki. Np. Jeśli zapytamy 10, 000 osób, gdyby kiedykolwiek zostali aresztowani, prawdopodobne jest, że próbka, którą skończymy, nie będzie reprezentatywna dla populacji - przestrzeni próbnej - ponieważ osoby, które zostałyby aresztowane, mogą odmówić odpowiedzi, a zatem odsetek możliwych wyników (aresztowani - nie aresztowani) będą się różnić między naszą próbką a populacją z powodów systemowych. Lub jeśli wybramy konkretną okolicę do przeprowadzenia ankiety, wyniki nie będą reprezentatywne dla Miasta jako całości. Próbkowanie z jednakowym prawdopodobieństwem implikuje, że nie ma żadnych systemowych powodów - poza czystą przypadkowością - co pozwala nam wierzyć, że proporcje możliwych wyników w naszej próbie różnią się od proporcji wyników w populacji / przestrzeni próbki. dlatego odsetek możliwych wyników (aresztowanych - nie aresztowanych) będzie się różnić między naszą próbą a populacją z powodów systemowych. Lub jeśli wybramy konkretną okolicę do przeprowadzenia ankiety, wyniki nie będą reprezentatywne dla Miasta jako całości. Próbkowanie z jednakowym prawdopodobieństwem implikuje, że nie ma żadnych systemowych powodów - poza czystą przypadkowością - co pozwala nam wierzyć, że proporcje możliwych wyników w naszej próbie różnią się od proporcji wyników w populacji / przestrzeni próbki. dlatego odsetek możliwych wyników (aresztowanych - nie aresztowanych) będzie się różnić między naszą próbą a populacją z powodów systemowych. Lub jeśli wybramy konkretną okolicę do przeprowadzenia ankiety, wyniki nie będą reprezentatywne dla Miasta jako całości. Próbkowanie z jednakowym prawdopodobieństwem implikuje, że nie ma żadnych systemowych powodów - poza czystą przypadkowością - co pozwala nam wierzyć, że proporcje możliwych wyników w naszej próbie różnią się od proporcji wyników w populacji / przestrzeni próbki.

rf7
źródło
-2

Losowa próbka jest realizacją sekwencji zmiennych losowych. Te losowe zmienne mogą być iid lub nie.

mohsen
źródło