Co dokładnie oznacza „gromadzenie danych”?

16

Pomyślałem, że „łączenie danych” oznacza po prostu łączenie danych, które wcześniej były podzielone na kategorie ... zasadniczo, ignorując kategorie i czyniąc zestaw danych jedną gigantyczną „pulą” danych. Myślę, że to pytanie dotyczy bardziej terminologii niż stosowania statystyk.

Na przykład: chcę porównać 2 witryny, aw ramach każdej witryny mam dwa typy lat (dobre i złe). Jeśli chcę porównać „ogólnie” 2 witryny (tzn. Ignorując typy roku), czy mogę powiedzieć, że gromadzę dane w ramach każdej witryny? Ponadto, skoro kilka lat danych obejmuje dobre i złe typy lat, czy prawdą jest również stwierdzenie, że gromadzę dane między latami, aby osiągnąć zestaw danych „dobry rok” i „zły rok” w każdej witrynie? Dzięki za pomoc! Mog

Mog
źródło

Odpowiedzi:

13

Tak, twoje przykłady są poprawne.

Słownik Oxford English Dictionary definiuje pulę jako:

basen, v.

(puːl)

1.1 trans. Wrzucenie do akcji zwykłych lub funduszu, które zostaną rozdzielone zgodnie z umową; łączyć (kapitał lub odsetki) dla wspólnej korzyści; spec. konkurujących przedsiębiorstw kolejowych itp .: Udostępnianie lub dzielenie (ruch lub pokwitowania).

Innym przykładem może być:

mierzysz poziom substancji X we krwi u mężczyzn i kobiet. Nie widzisz różnic statystycznych między obiema grupami, więc gromadzisz dane razem , ignorując płeć badanego eksperymentu.

To, czy jest to statystycznie poprawne, zależy bardzo od konkretnego przypadku.

Nico
źródło
12

Pula danych może odnosić się do łączenia danych, ale może również odnosić się do łączenia informacji, a nie surowych danych. Jednym z najczęstszych zastosowań łączenia jest oszacowanie wariancji. Jeśli uważamy, że 2 populacje mają tę samą wariancję, ale niekoniecznie tę samą średnią, możemy obliczyć 2 szacunki wariancji z próbek z 2 grup, a następnie połączyć je (przyjąć średnią ważoną), aby uzyskać pojedynczy szacunek wspólna wariancja. Nie obliczamy ani jednego oszacowania wariancji na podstawie połączonych danych, ponieważ jeśli średnie nie są równe, to spowoduje to zawyżenie oszacowania wariancji.

Greg Snow
źródło
Dzięki @Greg. Aby wyjaśnić (ponieważ staram się łączyć wariancje również z literatury), mówisz, że aby uzyskać „średnią” wariancję dla wielu populacji, mogę wziąć średnią ważoną obliczonych wariancji? Jak miałbym ważyć te wariancje? Czy nie każda populacja = 1?
Mog
Jeśli rozmiary próbek są równe, zwykła średnia zwykle działa. Zasadniczo nadajemy każdemu punktowi danych jednakową wagę, standardową formułą jest pomnożenie każdej wariancji przez stopnie swobody (lub liczbę w mianowniku dla grupy niż n-1), następnie zsumowanie wszystkich elementów, a następnie podzielenie przez sumę stopnie swobody (wszystkie n_i-1).
Greg Snow,