Niezależność reszt w komputerowym eksperymencie / symulacji?

17

Przeprowadziłem komputerową ocenę różnych metod dopasowania konkretnego typu modelu stosowanego w naukach paleeo. Miałem duży zestaw treningowy, więc losowo (stratyfikowane losowe próbkowanie) odłożyłem zestaw testowy. I przystosowany różnych metod zestawów testowych próbek i za pomocą otrzymanego wzór I przewidzieć odpowiedź dla zestawu testowego do próbki i oblicza się na RMSEP próbek w zestawie testowym. To jest pojedynczy przebieg .mm

Następnie powtórzyłem ten proces wiele razy, za każdym razem, gdy wybrałem inny zestaw treningowy, losowo próbkując nowy zestaw testowy.

Uczyniwszy to chcę zbadać, czy którykolwiek z metod ma lepsze lub gorsze osiągi RMSEP. Chciałbym również dokonać wielu porównań metod parami.m

Moje podejście polegało na dopasowaniu modelu liniowych efektów mieszanych (LME) z jednym losowym efektem dla Run . Użyłem lmer()z pakietu lme4 , aby dopasować mój model i funkcje z pakietu multcomp , aby wykonać wiele porównań. Mój model był zasadniczo

lmer(RMSEP ~ method + (1 | Run), data = FOO)

gdzie methodjest czynnikiem wskazującym, która metoda została użyta do wygenerowania prognoz modelu dla zestawu testowego i Runjest wskaźnikiem dla każdego konkretnego przebiegu mojego „eksperymentu”.

Moje pytanie dotyczy resztek LME. Biorąc pod uwagę pojedynczy efekt losowy dla przebiegu Zakładam, że wartości RMSEP dla tego przebiegu są do pewnego stopnia skorelowane, ale nie są skorelowane między przebiegami, na podstawie indukowanej korelacji, którą daje efekt losowy.

Czy to założenie o niezależności między seriami jest ważne? Jeśli nie, czy istnieje sposób, aby to wyjaśnić w modelu LME, czy powinienem zastosować inny rodzaj analizy statystycznej, aby odpowiedzieć na moje pytanie?

Przywróć Monikę - G. Simpson
źródło
Czy reszty są uzależnione od przewidywanych efektów losowych, czy bezwarunkowe, a w symulacjach przewidywane efekty losowe są stałe lub zmienne. Pamiętaj, aby spróbować to zrozumieć w przypadku domyślnych metod symulacji w LME4 i nie być w stanie (ale projekt został anulowany przed jego uporządkowaniem).
phaneron
Nie jestem pewien, czy w pełni przestrzegam, ale wszystkie serie zestawów treningowych -> modele dopasowania -> obliczenia RMSEP są wykonywane przed LME. Efekt losowy jest uruchamiany, ponieważ każdy przebieg będzie miał inny punkt przecięcia (RMSEP), ponieważ wybierane są różne kombinacje próbek zestawu testowego, ale jest to stałe w obrębie przebiegu. Jeśli chodzi o bit warunkowy / bezwarunkowy, nie jestem pewien / jasne, co masz na myśli. Dziękuję za komentarz.
Przywróć Monikę - G. Simpson

Odpowiedzi:

4

To w gruncie jakiejś formy walidacji krzyżowej tutaj dla każdego z m metod i będzie wtedy chciał zobaczyć, która metoda wykonywana lepiej. Wyniki między przejazdami na pewno będą zależne, ponieważ opierają się na tych samych danych i nakładają się na siebie zestawy pociągów / testów. Pytanie brzmi, czy powinno to mieć znaczenie, gdy porównasz metody.

Załóżmy, że wykonasz tylko jeden przebieg i okaże się, że jedna metoda jest lepsza niż inne. Następnie zadajesz sobie pytanie - czy to po prostu ze względu na konkretny wybór zestawu testowego? Dlatego powtarzasz test dla wielu różnych zestawów pociągów / testów. Tak więc, aby ustalić, że metoda jest lepsza niż inne metody, uruchamiasz wiele razy i za każdym razem porównujesz ją z innymi metodami (masz różne opcje spojrzenia na błąd / rank / etc). Teraz, jeśli okaże się, że metoda działa lepiej na większości przebiegów, wynik jest taki, jaki jest. Nie jestem pewien, czy warto nadać temu wartość p. Lub jeśli chcesz podać wartość p, zadaj sobie pytanie, jaki jest tutaj model tła?

Bitowe
źródło
Dziękuję za twoje przemyślenia. Myślę, że twoje ostatnie wiersze podsumowują właściwie to, gdzie jestem teraz. W oczekiwaniu na to nieco kontynuuję, gdzie pytam o odpowiednie sposoby analizy tego rodzaju danych. Podoba mi się również twój punkt widzenia na temat „jest tym, czym jest”; które ostatnio wirowało także na obrzeżach mojego procesu myślowego.
Przywróć Monikę - G. Simpson
Jednym z problemów, które mam z częścią „wynik jest taki, jaki jest”, jest to, że RMSEP są dość zmienne od uruchomienia do uruchomienia. Tak więc średnio jedna lub dwie metody są lepsze, ale czy naprawdę są one lepsze, biorąc pod uwagę zmienność RMSEP? Dlatego próbuję LME z losowym efektem dla Run. Aby zmodyfikować to podejście, musiałbym wiedzieć, kto koreluje każdy zestaw danych. Wydawałoby się, że każdy test statystyczny, który przeprowadzam, wymagałby takiej modyfikacji. Dlatego wciąż mam problem z interpretacją średnich z 50 przebiegów dla każdej metody i czy mogę wyciągnąć jakieś wnioski ...?
Przywróć Monikę - G. Simpson
1
Z mojego punktu widzenia ocena twoich metod na wszystkich możliwych partycjach danych pociągu / zestawu testowego twoich danych byłaby najbardziej kompleksową oceną. Ponieważ jest to niemożliwe, szacujesz to za pomocą losowych przebiegów. Powiedzmy, że możesz ocenić wszystkie partycje pociągów / testów - nadal będziesz mieć pytanie, jak zdecydować, która metoda jest lepsza. Jest to bardziej kwestia tego, jak zdefiniujesz, co jest „dobre”. Czy to oznacza wysoki średni wynik? Czy oznacza to, że w wielu seriach jedna metoda uzyskuje wyższy wynik niż inne (osobiście uważam, że byłaby to lepsza wersja)?
Bitowy
1

Może tak naprawdę nie rozumiem, co zrobiłeś, ale

dla przebiegu Zakładam, że wartości RMSEP dla tego przebiegu są do pewnego stopnia skorelowane

Tak, to odzwierciedla trudność zestawu testowego w tym przebiegu

ale są nieskorelowane między przebiegami

Nie, biorąc pod uwagę sposób, w jaki próbkowałeś zestawy testowe, niektóre będą się nakładać bardziej niż inne (zdecydowanie nie niezależne replikacje)

Trzeba by w jakiś sposób modelować zależność na podstawie nakładania się lub zaprojektować ocenę, aby przebiegi były niezależne. Czytałbym literaturę statystyk na temat walidacji krzyżowej ;-)

phaneron
źródło
+1 dzięki za odpowiedź. Hmm, rozumiem co masz na myśli. Im bardziej podobne zestawy testowe, tym bardziej podobne będą ich wartości RMSEP. OK, ujmując to w ten sposób, że dane są skorelowane przestrzennie lub tymczasowo. Sposób, w jaki generuję zestawy treningowe / zestawy testowe, powinien oznaczać, że średnio wszystkie są sobie odmienne. Nie jestem pewien, jakie CV by mnie tu sprowadziło - i w pewnym sensie robię to mimo wszystko poprzez podejście do ponownego próbkowania. Prawdopodobnie zapyta innego Q, jak rozwiązać prawdziwy problem.
Przywróć Monikę - G. Simpson
Pozostawię to otwarte do końca okresu nagród, aby sprawdzić, czy ktoś inny gryzie, ale doceniam twoje myśli tutaj i zaakceptuję i przyznam nagrodę, jeśli nie będą dostępne żadne inne odpowiedzi.
Przywróć Monikę - G. Simpson