Mam pytanie dotyczące wyboru modelu i wydajności modelu w regresji logistycznej. Mam trzy modele oparte na trzech różnych hipotezach. Pierwsze dwa modele (nazwijmy je z i x) mają tylko jedną zmienną objaśniającą w każdym modelu, a trzeci (nazwijmy to w) jest bardziej skomplikowany. Używam AIC do wyboru zmiennych dla modelu w, a następnie AIC do porównywania, który z trzech modeli najlepiej wyjaśnia zmienną zależną. Odkryłem, że model w ma najniższy AIC i teraz chcę zrobić statystyki wydajności dla tego modelu, aby uzyskać pewne pojęcie o mocy predykcyjnej modelu. Ponieważ wiem tylko, że ten model jest lepszy od pozostałych dwóch, ale nie jest tak dobry.
Ponieważ wykorzystałem wszystkie dane do nauki modelu (aby móc porównać wszystkie trzy modele), jak mam postępować z wydajnością modelu? Z tego, co zebrałem, nie mogę po prostu wykonać k-krotnej walidacji krzyżowej na ostatecznym modelu, który otrzymałem z wyboru modelu za pomocą AIC, ale muszę zacząć od początku ze wszystkimi zmiennymi objaśniającymi, czy to prawda? Wydaje mi się, że jest to ostateczny model, który wybrałem z AIC, i chcę wiedzieć, jak dobrze działa, ale zdaj sobie sprawę, że trenowałem na wszystkich danych, więc model może być stronniczy. Więc jeśli zacznę od początku ze wszystkimi zmiennymi objaśniającymi we wszystkich fałdach, otrzymam różne modele końcowe dla niektórych fałdów, czy mogę po prostu wybrać model z fałdu, który dał najlepszą moc predykcyjną i zastosować go do pełnego zestawu danych do porównania AIC z dwoma innymi modelami (z i x)? Lub jak to działa?
Druga część mojego pytania jest podstawowym pytaniem o nadmiernej parametryzacji. Mam 156 punktów danych, 52 to 1, reszta to 0. Mam 14 zmiennych objaśniających do wyboru dla modelu w, zdaję sobie sprawę, że nie mogę uwzględnić wszystkich ze względu na nadmierną parametryzację, przeczytałem, że powinieneś używać tylko 10% grupy zmiennej zależnej z najmniejszą liczbą obserwacji, które dla mnie byłoby tylko 5. Próbuję odpowiedzieć na pytanie z ekologii, czy dobrze jest wybrać zmienne początkowe, które moim zdaniem wyjaśniają zależność najlepiej po prostu na podstawie ekologii? Lub jak wybrać początkowe zmienne objaśniające? Nie wydaje się słuszne całkowite wykluczenie niektórych zmiennych.
Tak naprawdę mam trzy pytania:
- Czy testowanie wydajności na modelu wyuczonym na pełnym zbiorze danych z weryfikacją krzyżową może być w porządku?
- Jeśli nie, jak wybrać ostateczny model podczas weryfikacji krzyżowej?
- Jak wybrać zmienne początkowe, aby zmienić parametry?
Przepraszam za moje niechlujne pytania i moją ignorancję. Wiem, że zadawano podobne pytania, ale nadal czuję się trochę zdezorientowany. Doceń wszelkie przemyślenia i sugestie.
Aby odpowiedzieć „Czy może być w porządku testowanie wydajności modelu wyuczonego na pełnym zestawie danych z weryfikacją krzyżową?” NIE, nie sądzę, żeby to było w porządku. Powinieneś dopasować wszystkie 3 modele do tego samego podzbioru zestawu danych. Następnie wykonaj weryfikację krzyżową, aby zobaczyć, która jest lepsza.
źródło
Myślę, że nie. Być może lepszym sposobem byłaby ocena każdego z trzech modeli przy użyciu powtarzanej weryfikacji krzyżowej. Ponieważ wybrałeś swoje funkcje na podstawie wcześniejszej wiedzy, nie musisz się martwić o wybór funkcji. Ta metoda pozwala ocenić wydajność modelu.
Po dokonaniu oceny wydajności modelu przy użyciu wielokrotnej weryfikacji krzyżowej można następnie wyszkolić ostateczny model przy użyciu wszystkich dostępnych danych.
Jeśli dobrze rozumiem: Jak sugeruje autor powyżej, możesz albo dodać swoje funkcje na podstawie wcześniejszej wiedzy o danym obszarze, albo musisz dokonać wyboru funkcji w ramach weryfikacji krzyżowej, aby uniknąć nadmiernego dopasowania. Ta sama procedura wyboru cech byłaby następnie zastosowana do wszystkich danych podczas szkolenia ostatecznego modelu. Nie można używać tego modelu do raportowania ogólnej wydajności modelu, musi to pochodzić z oszacowania wzajemnej weryfikacji.
źródło