Test na pobieranie próbek IID

16

Jak byś przetestował lub sprawdził, czy próbkowanie jest IID (niezależne i identycznie rozproszone)? Zauważ, że nie mam na myśli Gaussa i dystrybucji identycznej, tylko IID.

Pomysł, który przychodzi mi na myśl, to wielokrotne dzielenie próbki na dwie podpróbki o równej wielkości, wykonanie testu Kołmogorowa-Smirnowa i sprawdzenie, czy rozkład wartości p jest równomierny.

Wszelkie uwagi dotyczące tego podejścia i wszelkie sugestie są mile widziane.

Wyjaśnienie po rozpoczęciu nagrody: szukam ogólnego testu, który można zastosować do danych innych niż szeregi czasowe.

gui11aume
źródło
Czy to dane szeregów czasowych?
danas.zuokas
@ gui11aume czy próbowałeś testu „gałki ocznej”? Oznacza to, wykreśl dane i sprawdź, czy to wygląda na IID.
Makro
Nie mam Nie jestem pewien, co masz na myśli: wykreśl wartości w kolejności, w jakiej się znajdują (być może losowo)? A następnie sprawdź brak uderzającego wzoru?
gui11aume
1
Czy spojrzałeś na „test uruchomienia”? en.wikipedia.org/wiki/Wald%E2%80%93Wolfowitz_runs_test
Stéphane Laurent
1
Przepraszam. Miałem na myśli następujący test uruchomienia: analndre-en-ligne.net/random/run.html (ale napisano to w języku francuskim)
Stéphane Laurent

Odpowiedzi:

14

To, co wyciągasz wniosek, jeśli dane to IID, pochodzi z informacji zewnętrznych, a nie samych danych. Jako naukowiec musisz ustalić, czy uzasadnione jest przyjęcie danych IID w oparciu o sposób gromadzenia danych i inne informacje zewnętrzne.

Rozważ kilka przykładów.

Scenariusz 1: Generujemy zestaw danych niezależnie od pojedynczego rozkładu, który przypadkowo jest mieszaniną 2 normalnych.

Scenariusz 2: Najpierw generujemy zmienną płci z rozkładu dwumianowego, następnie u mężczyzn i kobiet generujemy niezależnie dane z rozkładu normalnego (ale normalne są różne dla mężczyzn i kobiet), a następnie usuwamy lub tracimy informacje o płci.

W scenariuszu 1 dane są IID, aw scenariuszu 2 dane wyraźnie nie są identycznie rozmieszczone (różne rozkłady dla mężczyzn i kobiet), ale 2 rozkłady dla 2 scenariuszy są nie do odróżnienia od danych, musisz wiedzieć o tym, jak dane został wygenerowany w celu ustalenia różnicy.

Scenariusz 3: pobieram prostą losową próbę ludzi mieszkających w moim mieście, przeprowadzam ankietę i analizuję wyniki, aby wyciągać wnioski na temat wszystkich mieszkańców miasta.

Scenariusz 4: Biorę prostą losową próbę ludzi mieszkających w moim mieście, przeprowadzam ankietę i analizuję wyniki, aby wyciągać wnioski na temat wszystkich ludzi w kraju.

W scenariuszu 3 badani byliby uważani za niezależnych (zwykła losowa próba populacji będących przedmiotem zainteresowania), ale w scenariuszu 4 nie byliby uznani za niezależnych, ponieważ zostali wybrani z niewielkiej części interesującej populacji, a bliskość geograficzna prawdopodobnie narzuciłaby zależność. Ale 2 zestawy danych są identyczne, to sposób, w jaki zamierzamy wykorzystać dane, określa, czy w tym przypadku są one niezależne czy zależne.

Dlatego nie ma sposobu na przetestowanie przy użyciu samych danych, aby wykazać, że dane to IID, wykresy i inne testy diagnostyczne mogą pokazywać niektóre typy nie-IID, ale ich brak nie gwarantuje, że dane są IID. Można także porównać do konkretnych założeń (normalne IID jest łatwiejsze do obalenia niż tylko IID). Każdy test wciąż jest wykluczony, ale jego odrzucenie nigdy nie dowodzi, że jest to IID.

Decyzje dotyczące tego, czy jesteś skłonny założyć, że warunki IID się utrzymują, muszą być podejmowane w oparciu o naukę o tym, jak dane zostały zebrane, jak odnoszą się do innych informacji i jak będą wykorzystywane.

Edycje:

Oto kolejny zestaw przykładów nie-identycznych.

Scenariusz 5: dane są pozostałościami z regresji, w której występuje heteroscedastyczność (wariancje nie są równe).

Scenariusz 6: dane pochodzą z mieszanki normalnych ze średnią 0, ale różnymi wariancjami.

W scenariuszu 5 możemy wyraźnie zobaczyć, że reszty nie są identycznie rozłożone, jeśli wykreślimy reszty względem dopasowanych wartości lub innych zmiennych (predyktorów lub potencjalnych predyktorów), ale same reszty (bez zewnętrznych informacji) byłyby nie do odróżnienia od scenariusza 6.

Greg Snow
źródło
W szczególności pierwsza część tej odpowiedzi wydaje mi się nieco zagmatwana (lub myląca). Będąc iid jest dobrze zdefiniowana właściwość matematyczny z skończonego zbioru zmiennych losowych . Twoje scenariusze 1 i 2 są identyczne, jeśli zmienne losowe w drugim przypadku są uzyskiwane „po utracie informacji o płci”. Są w obu przypadkach!
kardynał
GregSnow Nie zgadzam się całkowicie z twoim twierdzeniem. Być może wiesz, że dane pochodzą z sekwencji identycznie rozmieszczonych zmiennych losowych. Nie wiesz dokładnie, który model go wygenerował. Możliwe, że są one generowane niezależnie lub na przemian pochodzą ze stacjonarnych szeregów czasowych. Aby zdecydować, który przypadek, załóżmy, że wiesz, że identyczny rozkład jest normalny. Wtedy obie możliwości mieszczą się w kategorii sekwencji stacjonarnej i to będzie, jeśli i tylko wszystkie niezerowe autokorelacje opóźnienia są równe 0. Zrozumiałe jest sprawdzenie, czy korelacja
Michael R. Chernick
2
@cardinal, czy zgadzasz się, że dane w scenariuszu 2 nie są identycznie dystrybuowane przed utratą informacji o płci? Mielibyśmy więc przypadek, w którym nie są one identyczne, ale jedynym sposobem na odróżnienie jest wykorzystanie informacji poza badaną zmienną (w tym przypadku płcią). Tak, bycie IID jest dobrze zdefiniowaną właściwością matematyczną, ale tak samo jak bycie liczbą całkowitą, czy możesz sprawdzić, czy punkt danych 3. jest liczbą całkowitą przechowywaną jako liczba zmiennoprzecinkowa lub ciągła wartość, która została zaokrąglona bez zewnętrznych informacji o tym, skąd przyszła od.
Greg Snow
2
ZXiXj,ijXi|ZXj|ZZZ
Ale wszystkie powyższe informacje wykorzystują informacje o sposobie gromadzenia / generowania danych, a nie tylko same dane. I nawet jeśli mamy dane, które potwierdzają, że nie ma autokorelacji szeregów czasowych, która nie mówi nam nic o korelacji przestrzennej lub innych rodzajach nie-niezależności. Czy naprawdę możemy przetestować każdy możliwy rodzaj zależności i uzyskać znaczące wyniki? czy powinniśmy wykorzystać informacje o tym, w jaki sposób dane zostały zebrane, aby wskazać, które testy mają największe znaczenie?
Greg Snow
5

Jeśli dane mają porządek indeksu, można użyć testów szumu białego dla szeregów czasowych. Zasadniczo oznacza to testowanie, czy autokorelacje we wszystkich niezerowych opóźnieniach wynoszą 0. To obsługuje część niezależności. Myślę, że twoje podejście stara się głównie rozwiązać identycznie rozproszoną część założenia. Myślę, że masz pewne problemy z twoim podejściem. Myślę, że potrzebujesz wielu podziałów, aby uzyskać wystarczającą wartość p do przetestowania jednorodności. Następnie każdy test KS traci moc. Jeśli używasz podziałów, które nakładają się na części zestawu danych, testy zostaną skorelowane. Przy małej liczbie podziałów testowi jednorodności brakuje mocy. Ale przy wielu podziałach test jednorodności może być mocny, ale testy KS nie. Wydaje się również, że takie podejście nie pomoże wykryć zależności między zmiennymi.

@ gu11aume Nie jestem pewien, o co prosisz w ramach ogólnego testu dla szeregów innych niż czasowe. Dane przestrzenne stanowią jedną formę danych szeregów innych niż czasowe. Tam można spojrzeć na funkcję o nazwie wariogram. W przypadku sekwencji jednowymiarowych nie widzę dużej różnicy między sekwencjami uporządkowanymi według czasu a jakimkolwiek innym sposobem porządkowania danych. Funkcję autokorelacji można nadal zdefiniować i przetestować. Kiedy mówisz, że chcesz przetestować niezależność próbkowania, myślę, że masz kolejność pobierania próbek. Myślę więc, że wszystkie jednowymiarowe przypadki działają w ten sam sposób.

Michael R. Chernick
źródło
2
(+1), ponieważ tak właśnie myślałem, ale Re: „Jeśli dane mają indeks uporządkujący, możesz użyć testów szumu białego dla szeregów czasowych. Zasadniczo oznacza to testowanie, czy autokorelacje przy wszystkich niezerowych opóźnieniach wynoszą 0.” - ta logika obowiązuje tylko w przypadku stacjonarnych szeregów czasowych, prawda? W przeciwnym razie możesz uzyskać mylące wyniki dotyczące opóźnionych korelacji. Co na przykład, jeśli tylko „późniejsza” część szeregu czasowego byłaby autokorelowana?
Makro
1
@Macro Myślałem, że o to ci chodziło na podstawie pytania skierowanego do OP. Ale nie sądziłem, że trzeba czekać na jego odpowiedź, aby to podkreślić. Ma to zastosowanie, gdy szukasz niezależności. Ale rozumiem twój punkt widzenia. W praktyce sprawdzasz tylko pierwsze k opóźnień. Gdyby szereg był stacjonarny, korelacje zmniejszyłyby się z k, ale nie w przypadku szeregów niestacjonarnych. Więc przynajmniej teoretycznie przeoczyłbyś korelację przy dużych opóźnieniach dla niestacjonarnej serii.
Michael R. Chernick
2
cor(yt,ys)=f(s,t)f(s,t)|st|
Dzięki za odpowiedź, Michael! Masz rację: w przypadku, gdy dane są szeregami czasowymi, sprawdzanie autokorelacji jest najlepszym podejściem. Jeśli chodzi o twoją krytykę podzielonego podejścia KS, masz również rację. Tak więc nadal pozostaje nam brak testu w ogólnym przypadku (bez szeregów czasowych).
gui11aume
2
Pierwsza niezerowa autokorelacja ma opóźnienie 60 i tylko przy innych wielokrotnościach 60. Jeśli szereg czasowy ma długość 55, nie możemy nawet zaobserwować dwóch opóźnień punktowych 60. Sowe nie może sprawdzić, czy korelacja opóźnienia 60 wynosi 0, czy nie. Jeśli długość szeregu wynosi 65, możemy oszacować korelację opóźnienia 60, ale na podstawie tylko 5 par opóźnienia 60. Zatem wariancja oszacowania jest duża i nie będziemy w stanie wykryć tej niezerowej korelacji.
Michael R. Chernick