Stałem się trochę nihilistą, jeśli chodzi o rankingi o różnym znaczeniu (w kontekście wszelkiego rodzaju modeli wielowymiarowych).
Często w trakcie pracy jestem proszony o pomoc innym zespołom w tworzeniu rankingu o zmiennym znaczeniu lub o sporządzenie rankingu o zmiennym znaczeniu z mojej pracy. W odpowiedzi na te pytania zadaję następujące pytania
Po co ci ten ranking ważności o zmiennej wartości? Czego możesz się z tego nauczyć? Jakie decyzje chciałbyś podjąć, korzystając z niego?
Odpowiedzi, które otrzymuję, prawie zawsze należą do jednej z dwóch kategorii
- Chciałbym poznać znaczenie różnych zmiennych w moim modelu w przewidywaniu odpowiedzi.
- Chciałbym go użyć do wyboru funkcji, usuwając zmienne o niskim znaczeniu.
Pierwsza odpowiedź jest tautologiczna (chciałbym rankingu o zmiennym znaczeniu, ponieważ chciałbym rankingu o zmiennym znaczeniu). Muszę założyć, że te rankingi wypełniają potrzebę psychologiczną, kiedy konsumujemy wyniki modelu wielowymiarowego. Trudno mi to zrozumieć, ponieważ indywidualne uszeregowanie zmiennych „ważność” wydaje się domyślnie odrzucać wielowymiarowy charakter danego modelu.
Druga odpowiedź zasadniczo ogranicza się do nieformalnej wersji selekcji wstecznej , której grzechy statystyczne są dobrze udokumentowane w innych częściach CrossValidated.
Walczę także ze źle zdefiniowaną naturą rankingów ważności. Wydaje się, że nie ma zgody co do tego, jaka koncepcja leżąca u podstaw rankingu powinna być mierzona, co nadaje im bardzo ad hoc smak. Istnieje wiele sposobów przypisywania oceny ważności lub rangi i na ogół mają one wady i zastrzeżenia:
- Mogą być wysoce zależne od algorytmu, jak w rankingach ważności w losowych lasach i gbms.
- Mogą mieć bardzo dużą wariancję, zmieniając się drastycznie wraz z zaburzeniami w podstawowych danych.
- Mogą bardzo cierpieć z powodu korelacji w predyktorach wejściowych.
Tak więc, po wszystkim, co powiedziałem, moje pytanie brzmi: jakie są statystycznie uzasadnione zastosowania w rankingach o różnym znaczeniu lub, co jest przekonującym argumentem (dla statystyki lub dla laika) na temat daremności takiego pragnienia? Interesują mnie zarówno ogólne argumenty teoretyczne, jak i studia przypadków, w zależności od tego, które z nich byłyby bardziej efektywne w przedstawianiu sprawy.
źródło
glmnet
jest ona dostępna?Odpowiedzi:
Argumentowałem, że zmienne znaczenie jest pojęciem śliskim , jak to pytanie stawia. Tautologiczna pierwsza odpowiedź, jaką otrzymujesz na swoje pytanie, i nierealistyczne nadzieje tych, którzy interpretują wyniki o różnym znaczeniu w kategoriach przyczynowości, jak zauważył @DexGroves, wymagają niewielkiego rozwinięcia.
Jednak uczciwie wobec tych, którzy zastosowaliby wsteczną selekcję, nawet Frank Harrell zezwala na to w ramach strategii modelowania. Na stronie 97 jego Strategii modelowania regresji , wydanie drugie (podobne stwierdzenie znajduje się na stronie 131 powiązanych notatek z kursu ):
To ograniczone potencjalne zastosowanie wyboru wstecznego jest jednak etapem 13, ostatnim krokiem przed ostatecznym modelem (etap 14). Przychodzi dobrze po kluczowych pierwszych krokach:
Z mojego doświadczenia wynika, że ludzie często chcą ominąć krok 2 i pozwolić, aby niektóre zautomatyzowane procedury zastąpiły inteligentne zastosowanie wiedzy merytorycznej. Może to prowadzić do tego, że nacisk zostanie położony na zmienne znaczenie.
Po pełnym modelu kroku 14 Harrella następują 5 kolejnych etapów walidacji i dostosowania, z ostatnim krokiem:
Jak zauważyły inne odpowiedzi, istnieją problemy z wykonalnością, kosztem i prostotą, które wchodzą w praktyczne zastosowanie wyników modelowania. Na przykład, jeśli opracuję nowy biomarker raka, który poprawi rokowanie, ale kosztuje 100 000 USD za test, przekonanie ubezpieczycieli lub rządu do opłacenia testu może być trudne, chyba że jest spektakularnie przydatne. Dlatego nie jest nierozsądne, aby ktoś chciał skupić się na zmiennych, które są „najważniejsze”, lub uprościć dokładny model na taki, który jest nieco mniej dokładny, ale jest łatwiejszy lub tańszy do wdrożenia.
Ale ten wybór zmiennych i uproszczenie modelu powinny mieć konkretny cel i myślę, że właśnie tam powstają trudności. Problem jest podobny do oceny schematów klasyfikacyjnych wyłącznie na podstawie procentu poprawnie sklasyfikowanych przypadków. Tak jak różne błędy klasyfikacji mogą mieć różne koszty, tak różne schematy uproszczenia modelu mogą mieć różne koszty równoważące ich oczekiwane korzyści.
Myślę więc, że kwestią, na której należy się skupić jako analityk, jest zdolność do oszacowania i zilustrowania tych kosztów i korzyści w wiarygodny sposób za pomocą procedur modelowania statystycznego, zamiast martwienia się zbytnio abstrakcyjną koncepcją statystycznej ważności jako takiej. Na przykład na stronach 157-8 wyżej wymienionych notatek Harrella znajduje się przykład użycia paska ładującego, aby pokazać kaprysy predyktorów rankingowych w najmniejszych kwadratach; podobne wyniki można znaleźć dla zbiorów zmiennych wybranych przez LASSO.
Jeśli tego rodzaju zmienność w wyborze zmiennych nie przeszkadza w konkretnym praktycznym zastosowaniu modelu, to jest OK. Zadanie polega na oszacowaniu, ile i jakiego rodzaju problemów spowoduje to uproszczenie.
źródło
Jest to całkowicie anegdotyczne, ale uważam, że zmienne znaczenie jest przydatne w identyfikowaniu błędów lub słabości GBM.
Zmienna ważność daje rodzaj ogromnego przekroju modelu, którego inaczej trudno byłoby uzyskać. Zmienne znajdujące się wyżej na liście wykazują większą aktywność (to, czy są one bardziej „ważne”, to kolejne pytanie). Często źle zachowujący się predyktor (na przykład coś wybiegającego w przyszłość lub czynnik o dużej liczności) strzela na szczyt.
Jeśli istnieje duża różnica zdań między znaczeniem zmiennej intuicji a znaczeniem zmiennej GBM, zwykle trzeba zdobyć cenną wiedzę lub znaleźć błąd.
Dodałbym trzecią odpowiedź do „dlaczego mnie o to pytasz?” pytanie, które brzmi „ponieważ chcę zrozumieć, co jest przyczyną mojej odpowiedzi”. Eep.
źródło
Rankingi o zmiennym znaczeniu odgrywają określoną rolę w stosowanym świecie biznesu, ilekroć zachodzi potrzeba ustalenia priorytetów potencjalnie dużej liczby danych wejściowych do procesu, dowolnego procesu. Informacje te zapewniają kierunek w postaci ukierunkowanej strategii atakowania problemu, od najbardziej do najmniej ważnych, np. Redukcji kosztów procesu, biorąc pod uwagę, że zmienne można wykorzystać, a nie stałe lub czynniki strukturalne odporne na manipulację. Pod koniec dnia powinno to doprowadzić do pewnego rodzaju testu A / B.
Jednak, o ile ci chodzi, Matt i podobnie jak w przypadku porządków porządkowych, drobne niuanse lub różnice między zmiennymi mogą być niejednoznaczne lub zaciemnione, osłabiając ich przydatność.
źródło
Całkowicie się z tobą zgadzam teoretycznie. Jednak z praktycznego punktu widzenia bardzo ważne jest zmienne znaczenie.
Weźmy przykład, w którym firma ubezpieczeniowa chce zmniejszyć liczbę pytań w kwestionariuszu określającym ryzyko swoich klientów. Im bardziej skomplikowany jest kwestionariusz, tym mniej prawdopodobne jest, że klienci kupią swoje produkty. Z tego powodu chcą ograniczyć mniej przydatne pytania przy zachowaniu poziomu kwantyfikacji ryzyka. Rozwiązaniem jest często stosowanie zmiennej ważności w celu ustalenia, które pytania należy usunąć z kwestionariusza (i „mniej więcej” tej samej prognozy dotyczącej profilu ryzyka potencjalnego klienta).
źródło