Wykryto wielowymiarowe, skorelowane dane oraz najważniejsze cechy / zmienne towarzyszące; testowanie wielu hipotez?

Mam zestaw danych z około 5000 często skorelowanych cech / zmiennych towarzyszących i odpowiedzią binarną. Dane zostały mi przekazane, nie zebrałem ich. Używam Lasso i funkcji zwiększania gradientu do budowy modeli. Używam iteracji, zagnieżdżonej weryfikacji krzyżowej. Podaję największe (bezwzględne) 40 współczynników Lasso i 40 najważniejszych cech drzew o podwyższonym gradiencie (w 40 nie było nic specjalnego; wydawało się, że to rozsądna ilość informacji). Zgłaszam również wariancję tych ilości w fałdach i iteracjach CV.

W pewnym sensie zastanawiam się nad „ważnymi” cechami, nie wypowiadając się na temat wartości p, przyczynowości itp., Ale zamiast tego uważam ten proces za pewnego rodzaju - choć niedoskonały i przypadkowy - wgląd w jakieś zjawisko.

Zakładając, że zrobiłem to wszystko poprawnie (np. Poprawnie wykonałem weryfikację krzyżową, skalowaną dla lasso), czy takie podejście jest rozsądne? Czy występują problemy z np. Testowaniem wielu hipotez, analizą post hoc, fałszywym odkryciem? Lub inne problemy?

Cel

Przewiduj prawdopodobieństwo wystąpienia zdarzenia niepożądanego

Przede wszystkim dokładnie oszacuj prawdopodobieństwo
Bardziej drobne - w ramach kontroli poczytalności, ale także w celu ujawnienia niektórych nowych predyktorów, które można by dalej zbadać, sprawdzić współczynniki i znaczenie, jak wspomniano powyżej.

Konsument

Naukowcy zainteresowani przewidywaniem tego wydarzenia i osobami, które w końcu będą musiały naprawić wydarzenie, jeśli nastąpi

Co chcę, żeby się z tego wydostali

Daj im możliwość przewidywania zdarzenia, jeśli chcą powtórzyć proces modelowania, zgodnie z opisem, z własnymi danymi.
Rzuć nieco światła na nieoczekiwane predyktory. Na przykład może się okazać, że coś zupełnie nieoczekiwanego jest najlepszym predyktorem. Modelerze w innych krajach mogą zatem poważniej rozważyć wspomniany predyktor.

machine-learning multiple-comparisons regression-coefficients lasso high-dimensional użytkownik0
źródło

Przydałoby się wiedzieć, o co tu chodzi. Zrobiłeś te rzeczy, dlaczego? Kim jest konsument i co chcesz, żeby wyciągnęli z analizy?

Matthew Drury,

Nie ma problemów z dokładnością prognoz. Niepewność twoich prognoz jest dobrze oszacowana na podstawie krzyżowej walidacji. Być może jednym zastrzeżeniem jest to, że jeśli testujesz wiele ustawień parametrów, to przeceniasz dokładność, więc powinieneś użyć zestawu walidacyjnego do oszacowania dokładności ostatecznego modelu. Ponadto twoje dane powinny być reprezentatywne dla danych, na których zamierzasz przewidywać.

Jest dla ciebie jasne i powinno być jasne dla czytelnika, że twoje predyktory nie są przyczynami efektu, są tylko predyktorami, które dają dobre prognozy i działają dobrze empirycznie. Chociaż całkowicie zgadzam się z twoją ostrożnością, wnioskowanie o związku przyczynowym na podstawie danych obserwacyjnych jest w każdym razie problematyczne. Rzeczy takie jak znaczenie i takie są „prawidłowymi” pojęciami w dobrze zaprojektowanych, kontrolowanych badaniach, a poza tym są jedynie narzędziami, które ty i inni powinniście interpretować mądrze i ostrożnie. Mogą występować typowe przyczyny, efekty uboczne, maskowanie i inne rzeczy w normalnej regresji liniowej z raportowanymi przedziałami ufności, a także w modelu lasso, a także w modelu drzewa wzmocnionego gradientem.

Gijs
źródło

Wykryto wielowymiarowe, skorelowane dane oraz najważniejsze cechy / zmienne towarzyszące; testowanie wielu hipotez?

Odpowiedzi: