Przeprowadziłem komputerową ocenę różnych metod dopasowania konkretnego typu modelu stosowanego w naukach paleeo. Miałem duży zestaw treningowy, więc losowo (stratyfikowane losowe próbkowanie) odłożyłem zestaw testowy. I przystosowany różnych metod zestawów testowych próbek i za pomocą otrzymanego wzór I przewidzieć odpowiedź dla zestawu testowego do próbki i oblicza się na RMSEP próbek w zestawie testowym. To jest pojedynczy przebieg .
Następnie powtórzyłem ten proces wiele razy, za każdym razem, gdy wybrałem inny zestaw treningowy, losowo próbkując nowy zestaw testowy.
Uczyniwszy to chcę zbadać, czy którykolwiek z metod ma lepsze lub gorsze osiągi RMSEP. Chciałbym również dokonać wielu porównań metod parami.
Moje podejście polegało na dopasowaniu modelu liniowych efektów mieszanych (LME) z jednym losowym efektem dla Run . Użyłem lmer()
z pakietu lme4 , aby dopasować mój model i funkcje z pakietu multcomp , aby wykonać wiele porównań. Mój model był zasadniczo
lmer(RMSEP ~ method + (1 | Run), data = FOO)
gdzie method
jest czynnikiem wskazującym, która metoda została użyta do wygenerowania prognoz modelu dla zestawu testowego i Run
jest wskaźnikiem dla każdego konkretnego przebiegu mojego „eksperymentu”.
Moje pytanie dotyczy resztek LME. Biorąc pod uwagę pojedynczy efekt losowy dla przebiegu Zakładam, że wartości RMSEP dla tego przebiegu są do pewnego stopnia skorelowane, ale nie są skorelowane między przebiegami, na podstawie indukowanej korelacji, którą daje efekt losowy.
Czy to założenie o niezależności między seriami jest ważne? Jeśli nie, czy istnieje sposób, aby to wyjaśnić w modelu LME, czy powinienem zastosować inny rodzaj analizy statystycznej, aby odpowiedzieć na moje pytanie?
źródło
Odpowiedzi:
To w gruncie jakiejś formy walidacji krzyżowej tutaj dla każdego z m metod i będzie wtedy chciał zobaczyć, która metoda wykonywana lepiej. Wyniki między przejazdami na pewno będą zależne, ponieważ opierają się na tych samych danych i nakładają się na siebie zestawy pociągów / testów. Pytanie brzmi, czy powinno to mieć znaczenie, gdy porównasz metody.
Załóżmy, że wykonasz tylko jeden przebieg i okaże się, że jedna metoda jest lepsza niż inne. Następnie zadajesz sobie pytanie - czy to po prostu ze względu na konkretny wybór zestawu testowego? Dlatego powtarzasz test dla wielu różnych zestawów pociągów / testów. Tak więc, aby ustalić, że metoda jest lepsza niż inne metody, uruchamiasz wiele razy i za każdym razem porównujesz ją z innymi metodami (masz różne opcje spojrzenia na błąd / rank / etc). Teraz, jeśli okaże się, że metoda działa lepiej na większości przebiegów, wynik jest taki, jaki jest. Nie jestem pewien, czy warto nadać temu wartość p. Lub jeśli chcesz podać wartość p, zadaj sobie pytanie, jaki jest tutaj model tła?
źródło
Może tak naprawdę nie rozumiem, co zrobiłeś, ale
Tak, to odzwierciedla trudność zestawu testowego w tym przebiegu
Nie, biorąc pod uwagę sposób, w jaki próbkowałeś zestawy testowe, niektóre będą się nakładać bardziej niż inne (zdecydowanie nie niezależne replikacje)
Trzeba by w jakiś sposób modelować zależność na podstawie nakładania się lub zaprojektować ocenę, aby przebiegi były niezależne. Czytałbym literaturę statystyk na temat walidacji krzyżowej ;-)
źródło