Jaka jest różnica między populacją a próbą?

38

Jaka jest różnica między populacją a próbą? Jakie wspólne zmienne i statystyki są używane dla każdej z nich i jak się one ze sobą wiążą?

Baltimark
źródło

Odpowiedzi:

36

Populacja jest zbiorem badanych podmiotów. Na przykład średni wzrost mężczyzn. Jest to hipotetyczna populacja, ponieważ obejmuje wszystkich mężczyzn, którzy żyli, żyją i będą żyć w przyszłości. Podoba mi się ten przykład, ponieważ dowodzi, że my, analitycy, wybieramy populację, którą chcemy badać. Zazwyczaj niemożliwe jest zbadanie / zmierzenie całej populacji, ponieważ nie wszyscy członkowie są obserwowalni (np. Mężczyźni, którzy będą istnieć w przyszłości). Jeśli można wyliczyć całą populację, jest to często kosztowne i zajmuje dużo czasu. W powyższym przykładzie mamy populację „mężczyzn” i parametr będący przedmiotem zainteresowania, ich wzrost.

Zamiast tego możemy wziąć podzbiór tej populacji zwany próbką i użyć tej próbki do wyciągnięcia wniosków na temat badanej populacji, pod pewnymi warunkami. W ten sposób moglibyśmy zmierzyć średni wzrost mężczyzn w próbie populacji, którą nazywamy statystyką, i wykorzystać to do wyciągnięcia wniosków na temat parametru zainteresowania w populacji. Jest to wnioskowanie, ponieważ wystąpi niepewność i niedokładność związana z wyciąganiem wniosków na temat populacji na podstawie próby. To powinno być oczywiste - w naszej próbie jest mniej członków niż w naszej populacji, dlatego straciliśmy trochę informacji.

Istnieje wiele sposobów wyboru próbki, a badanie tego nazywa się teorią pobierania próbek. Powszechnie stosowana metoda nosi nazwę Simple Random Sampling (SRS). W SRS każdy członek populacji ma jednakowe prawdopodobieństwo włączenia do próby, stąd termin „losowy”. Istnieje wiele innych metod próbkowania, np. Próbkowanie warstwowe, próbkowanie skupiskowe itp., Które mają swoje zalety i wady.

Należy pamiętać, że próbka, którą pobieramy z populacji, jest tylko jedną z dużej liczby potencjalnych próbek. Jeśli dziesięciu badaczy studiuje tę samą populację, pobierając własne próbki, mogą uzyskać różne odpowiedzi. Wracając do naszego wcześniejszego przykładu, każdy z dziesięciu badaczy może zaproponować inną średnią wysokość mężczyzn, tj. Przedmiotowa statystyka (średnia wysokość) zmienia się od próbki do próbki - ma rozkład zwany rozkładem próbkowania. Możemy użyć tego rozkładu, aby zrozumieć niepewność w naszym oszacowaniu parametru populacji.

Rozkład próbkowania średniej próbki jest znany jako rozkład normalny ze odchyleniem standardowym równym odchyleniu standardowemu próbki podzielonemu przez wielkość próbki. Ponieważ można to łatwo pomylić ze standardowym odchyleniem próbki, powszechniejsze jest nazywanie standardowego odchylenia rozkładu próbkowania błędem standardowym .

Graham Cookson
źródło
7
Czy nie jest to trochę bezcelowe używanie „populacji wszystkich ludzi” jako populacji? To znaczy, nie ma nawet zgody co do tego, ile lat ma homo sapiens ani czy homo neanderthalensis były odrębnym gatunkiem, nie mówiąc już o tym, czy samce narzędzia kamiennego używającego homo habilis liczą się jako „mężczyźni”. Przypuszczalnie te same problemy napotkają nas również w przyszłości.
naught101
W ostatnim akapicie myślę, że jest niewielka drobnostka, i powinna ona brzmieć ... „równa odchyleniu standardowemu próbki podzielonemu przez [pierwiastek kwadratowy] wielkości próbki” w odniesieniu do błędu standardowego .
Antoni Parellada,
13

Populacja to cały zestaw wartości lub osób, którymi jesteś zainteresowany. Próbka jest podzbiorem populacji i jest zbiorem wartości, których faktycznie używasz w swoich szacunkach.

Na przykład, jeśli chcesz poznać średnią wysokość mieszkańców Chin, to jest to twoja populacja, tj. Populacja Chin. Chodzi o to, że jest to dość duża liczba i nie byłoby możliwe uzyskanie danych dla wszystkich. Narysujesz więc próbkę, to znaczy otrzymujesz pewne obserwacje lub wysokość niektórych ludzi w Chinach (podgrupa populacji, próba) i na tej podstawie wyciągasz wnioski.

Vivi
źródło
Dobra odpowiedź. Myślę, że powinieneś pójść dalej do tego, co masz na myśli, mówiąc „czyń swoje wnioski na tej podstawie”. To rodzaj drugiej części mojego pytania.
Baltimark,
mmm ... Naprawdę nie rozumiem, co masz na myśli przez te wspólne zmienne i statystyki ... Och, masz na myśli to, że używasz rozkładu z, jeśli masz wariancję populacji i rozkład t, jeśli masz tylko wariancję próbki a rozmiar próbki jest mały? Coś w tym stylu?
Vivi,
Uzyskałem średnią i odchylenie standardowe to parametry związane z populacją, ale są one szacowane na podstawie średniej próby ((1 / N) * \ sum (x_i)) i odchylenia standardowego próbki ((1 / ( N-1)) * \ sum (x_i - x ^ bar) ^ 2).
Baltimark,
8

Populacja jest wszystkim w grupie badań. Na przykład, jeśli studiujesz cenę akcji Apple, są to historyczne, bieżące, a nawet wszystkie przyszłe ceny akcji. Lub, jeśli prowadzisz fabrykę jaj, są to wszystkie jaja wyprodukowane przez fabrykę.

Nie zawsze musisz próbkować i przeprowadzać testy statystyczne. Jeśli twoja populacja jest twoją najbliższą rodziną, nie musisz próbować, ponieważ populacja jest niewielka.

Pobieranie próbek jest popularne z różnych powodów:

  • jest tańszy niż spis powszechny (pobieranie próbek z całej populacji)
  • nie masz dostępu do przyszłych danych, więc musisz spróbować przeszłości
  • musisz zniszczyć niektóre przedmioty, testując je, i nie chcesz ich wszystkie (powiedzmy, jajka)
Neil McGuigan
źródło
2

Kiedy myślimy o „populacji”, zwykle myślimy o ludziach w naszym mieście, regionie, stanie lub kraju i ich odpowiednich cechach, takich jak płeć, wiek, stan cywilny, przynależność etniczna, religia i tak dalej. W statystyce termin „populacja” ma nieco inne znaczenie. „Populacja” w statystykach obejmuje wszystkich członków określonej grupy, nad którymi badamy lub zbieramy informacje w celu podjęcia decyzji opartych na danych.

Część populacji nazywa się próbką. Jest to część populacji, jej część, jej część i wszystkie jej cechy. Próbka to naukowo narysowana grupa, która w rzeczywistości ma te same cechy co populacja - jeśli jest losowana (może to być trudne do uwierzenia, ale to prawda!)

Losowo losowane próbki muszą mieć dwie cechy:

* Każda osoba ma równe szanse na wybór próbki; i,

* Wybór jednej osoby jest niezależny od wyboru innej osoby.

Wspaniałą cechą losowych próbek jest to, że możesz uogólniać na populację, którą jesteś zainteresowany. Jeśli więc spróbujesz 500 gospodarstw domowych w swojej społeczności, możesz uogólnić na 50 000 gospodarstw domowych, które tam mieszkają. Jeśli dopasujesz niektóre cechy demograficzne 500 z 50 000, zobaczysz, że są one zaskakująco podobne.

roseleneramas
źródło
2
Jest to w zasadzie poprawne, jeśli właściwie interpretowane. Obawiam się, że niektórzy czytelnicy mogą zostać wprowadzeni w błąd, myśląc, że proste losowe próbki z podmianą (co jest typem losowej próby, którą opisujesz; istnieją inne rodzaje) poprawnie odtwarzają wszystkie cechy populacji. W rzeczywistości rzadko. Losowe pobieranie próbek polega na tym, że (nieuniknione) różnice między cechami próby a cechami populacji można przypisać procesowi losowego doboru.
whuber
0

Populacja zawiera wszystkie elementy z zestawu danych. Próbka składa się z jednej lub więcej obserwacji z populacji. BOA, A. (2012, 17)

użytkownik91513
źródło
2
Gdy wszystkie elementy „zestawu danych” są uważane za populację, ten zestaw danych nazywany jest spisem ludności. Niezwykle niewiele zestawów danych to spisy powszechne.
whuber