Jak byś przetestował lub sprawdził, czy próbkowanie jest IID (niezależne i identycznie rozproszone)? Zauważ, że nie mam na myśli Gaussa i dystrybucji identycznej, tylko IID.
Pomysł, który przychodzi mi na myśl, to wielokrotne dzielenie próbki na dwie podpróbki o równej wielkości, wykonanie testu Kołmogorowa-Smirnowa i sprawdzenie, czy rozkład wartości p jest równomierny.
Wszelkie uwagi dotyczące tego podejścia i wszelkie sugestie są mile widziane.
Wyjaśnienie po rozpoczęciu nagrody: szukam ogólnego testu, który można zastosować do danych innych niż szeregi czasowe.
Odpowiedzi:
To, co wyciągasz wniosek, jeśli dane to IID, pochodzi z informacji zewnętrznych, a nie samych danych. Jako naukowiec musisz ustalić, czy uzasadnione jest przyjęcie danych IID w oparciu o sposób gromadzenia danych i inne informacje zewnętrzne.
Rozważ kilka przykładów.
Scenariusz 1: Generujemy zestaw danych niezależnie od pojedynczego rozkładu, który przypadkowo jest mieszaniną 2 normalnych.
Scenariusz 2: Najpierw generujemy zmienną płci z rozkładu dwumianowego, następnie u mężczyzn i kobiet generujemy niezależnie dane z rozkładu normalnego (ale normalne są różne dla mężczyzn i kobiet), a następnie usuwamy lub tracimy informacje o płci.
W scenariuszu 1 dane są IID, aw scenariuszu 2 dane wyraźnie nie są identycznie rozmieszczone (różne rozkłady dla mężczyzn i kobiet), ale 2 rozkłady dla 2 scenariuszy są nie do odróżnienia od danych, musisz wiedzieć o tym, jak dane został wygenerowany w celu ustalenia różnicy.
Scenariusz 3: pobieram prostą losową próbę ludzi mieszkających w moim mieście, przeprowadzam ankietę i analizuję wyniki, aby wyciągać wnioski na temat wszystkich mieszkańców miasta.
Scenariusz 4: Biorę prostą losową próbę ludzi mieszkających w moim mieście, przeprowadzam ankietę i analizuję wyniki, aby wyciągać wnioski na temat wszystkich ludzi w kraju.
W scenariuszu 3 badani byliby uważani za niezależnych (zwykła losowa próba populacji będących przedmiotem zainteresowania), ale w scenariuszu 4 nie byliby uznani za niezależnych, ponieważ zostali wybrani z niewielkiej części interesującej populacji, a bliskość geograficzna prawdopodobnie narzuciłaby zależność. Ale 2 zestawy danych są identyczne, to sposób, w jaki zamierzamy wykorzystać dane, określa, czy w tym przypadku są one niezależne czy zależne.
Dlatego nie ma sposobu na przetestowanie przy użyciu samych danych, aby wykazać, że dane to IID, wykresy i inne testy diagnostyczne mogą pokazywać niektóre typy nie-IID, ale ich brak nie gwarantuje, że dane są IID. Można także porównać do konkretnych założeń (normalne IID jest łatwiejsze do obalenia niż tylko IID). Każdy test wciąż jest wykluczony, ale jego odrzucenie nigdy nie dowodzi, że jest to IID.
Decyzje dotyczące tego, czy jesteś skłonny założyć, że warunki IID się utrzymują, muszą być podejmowane w oparciu o naukę o tym, jak dane zostały zebrane, jak odnoszą się do innych informacji i jak będą wykorzystywane.
Edycje:
Oto kolejny zestaw przykładów nie-identycznych.
Scenariusz 5: dane są pozostałościami z regresji, w której występuje heteroscedastyczność (wariancje nie są równe).
Scenariusz 6: dane pochodzą z mieszanki normalnych ze średnią 0, ale różnymi wariancjami.
W scenariuszu 5 możemy wyraźnie zobaczyć, że reszty nie są identycznie rozłożone, jeśli wykreślimy reszty względem dopasowanych wartości lub innych zmiennych (predyktorów lub potencjalnych predyktorów), ale same reszty (bez zewnętrznych informacji) byłyby nie do odróżnienia od scenariusza 6.
źródło
Jeśli dane mają porządek indeksu, można użyć testów szumu białego dla szeregów czasowych. Zasadniczo oznacza to testowanie, czy autokorelacje we wszystkich niezerowych opóźnieniach wynoszą 0. To obsługuje część niezależności. Myślę, że twoje podejście stara się głównie rozwiązać identycznie rozproszoną część założenia. Myślę, że masz pewne problemy z twoim podejściem. Myślę, że potrzebujesz wielu podziałów, aby uzyskać wystarczającą wartość p do przetestowania jednorodności. Następnie każdy test KS traci moc. Jeśli używasz podziałów, które nakładają się na części zestawu danych, testy zostaną skorelowane. Przy małej liczbie podziałów testowi jednorodności brakuje mocy. Ale przy wielu podziałach test jednorodności może być mocny, ale testy KS nie. Wydaje się również, że takie podejście nie pomoże wykryć zależności między zmiennymi.
@ gu11aume Nie jestem pewien, o co prosisz w ramach ogólnego testu dla szeregów innych niż czasowe. Dane przestrzenne stanowią jedną formę danych szeregów innych niż czasowe. Tam można spojrzeć na funkcję o nazwie wariogram. W przypadku sekwencji jednowymiarowych nie widzę dużej różnicy między sekwencjami uporządkowanymi według czasu a jakimkolwiek innym sposobem porządkowania danych. Funkcję autokorelacji można nadal zdefiniować i przetestować. Kiedy mówisz, że chcesz przetestować niezależność próbkowania, myślę, że masz kolejność pobierania próbek. Myślę więc, że wszystkie jednowymiarowe przypadki działają w ten sam sposób.
źródło