Czy ma sens obliczanie przedziałów ufności i testowanie hipotez, gdy dostępne są dane z całej populacji? Moim zdaniem odpowiedź brzmi „nie”, ponieważ możemy dokładnie obliczyć prawdziwe wartości parametrów. Ale jaka jest maksymalna proporcja danych z pierwotnej populacji, która pozwala nam korzystać z wyżej wymienionych technik?
hypothesis-testing
confidence-interval
sample-size
large-data
population
Miroslav Sabo
źródło
źródło
Odpowiedzi:
Pierwsze pytanie to takie, które zasadniczo nie uzgodniło odpowiedzi. Mój pogląd jest podobny do twojego, ale inni argumentowali, że populację można postrzegać jako próbkę z „super-populacji”, gdzie dokładna natura super-populacji różni się w zależności od kontekstu: np. Spis wszystkich ludzi mieszkających w budynek może być postrzegany jako próbka od wszystkich ludzi mieszkających w podobnych budynkach; spis ludności USA (nie żeby nigdy nie był naprawdę kompletny) może być postrzegany jako próbka pochodząca z super-populacji Amerykanów, która pewnego dnia może istnieć (lub coś w tym rodzaju). Myślę, że często jest to wymówka, aby użyć wartości p; wielu naukowców z dziedzin merytorycznych nie czuje się dobrze, jeśli nie mają wartości p. (Ale to mój pogląd).
Na drugie pytanie wydaje się nieco dziwna odpowiedź w sposób ogólny. Kiedy otrzymujesz próbkę, która (powiedzmy), stanowi więcej niż połowę populacji?
Większym problemem będzie stronniczość. Wracając do spisu powszechnego w USA, problemem nie jest po prostu to, że tęskni za ludźmi, ale że ludzie, za którymi tęskni, nie są losową próbą całej populacji; więc nawet jeśli spis otrzyma odpowiedzi od (aby wybrać liczbę) 95% wszystkich ludzi, jeśli te 5% pozostałych jest zupełnie innych, wyniki będą tendencyjne.
źródło
Załóżmy, że tylko 2 na 12 członków komitetu to kobiety.
Lub można to uznać za oszacowanie prawdopodobieństwa, że kobieta zostanie wybrana do komitetu - właściwość procesu selekcji. Możesz umieścić wokół niego przedziały ufności, przetestować, czy różni się znacznie od połowy (lub innej istotnej hipotezy zerowej) i tak dalej. Być może proces musi zostać zmieniony, aby był sprawiedliwy.
Oba poglądy, opisowy i wnioskowy, nie są ze sobą sprzeczne, ale dość odmienne.
Odpowiedź na drugie pytanie jest taka, że sensowne jest obliczanie przedziałów ufności dla i testowania hipotez dotyczących parametru populacji, nawet jeśli tylko jedna osoba nie jest próbkowana. Należy tylko pamiętać, że CI i testy muszą uwzględniać znaczną część populacji, z której pobiera się próbki: patrz skończona korekta populacji .
źródło