Do czego przydają się rankingi o zmiennym znaczeniu?

25

Stałem się trochę nihilistą, jeśli chodzi o rankingi o różnym znaczeniu (w kontekście wszelkiego rodzaju modeli wielowymiarowych).

Często w trakcie pracy jestem proszony o pomoc innym zespołom w tworzeniu rankingu o zmiennym znaczeniu lub o sporządzenie rankingu o zmiennym znaczeniu z mojej pracy. W odpowiedzi na te pytania zadaję następujące pytania

Po co ci ten ranking ważności o zmiennej wartości? Czego możesz się z tego nauczyć? Jakie decyzje chciałbyś podjąć, korzystając z niego?

Odpowiedzi, które otrzymuję, prawie zawsze należą do jednej z dwóch kategorii

  • Chciałbym poznać znaczenie różnych zmiennych w moim modelu w przewidywaniu odpowiedzi.
  • Chciałbym go użyć do wyboru funkcji, usuwając zmienne o niskim znaczeniu.

Pierwsza odpowiedź jest tautologiczna (chciałbym rankingu o zmiennym znaczeniu, ponieważ chciałbym rankingu o zmiennym znaczeniu). Muszę założyć, że te rankingi wypełniają potrzebę psychologiczną, kiedy konsumujemy wyniki modelu wielowymiarowego. Trudno mi to zrozumieć, ponieważ indywidualne uszeregowanie zmiennych „ważność” wydaje się domyślnie odrzucać wielowymiarowy charakter danego modelu.

Druga odpowiedź zasadniczo ogranicza się do nieformalnej wersji selekcji wstecznej , której grzechy statystyczne są dobrze udokumentowane w innych częściach CrossValidated.

Walczę także ze źle zdefiniowaną naturą rankingów ważności. Wydaje się, że nie ma zgody co do tego, jaka koncepcja leżąca u podstaw rankingu powinna być mierzona, co nadaje im bardzo ad hoc smak. Istnieje wiele sposobów przypisywania oceny ważności lub rangi i na ogół mają one wady i zastrzeżenia:

  • Mogą być wysoce zależne od algorytmu, jak w rankingach ważności w losowych lasach i gbms.
  • Mogą mieć bardzo dużą wariancję, zmieniając się drastycznie wraz z zaburzeniami w podstawowych danych.
  • Mogą bardzo cierpieć z powodu korelacji w predyktorach wejściowych.

Tak więc, po wszystkim, co powiedziałem, moje pytanie brzmi: jakie są statystycznie uzasadnione zastosowania w rankingach o różnym znaczeniu lub, co jest przekonującym argumentem (dla statystyki lub dla laika) na temat daremności takiego pragnienia? Interesują mnie zarówno ogólne argumenty teoretyczne, jak i studia przypadków, w zależności od tego, które z nich byłyby bardziej efektywne w przedstawianiu sprawy.

Matthew Drury
źródło
1
Używanie zmiennej ważności (z pewnej rozsądnej procedury) do odfiltrowywania słabych predyktorów nie wydaje się strasznym pomysłem. Czy możesz wyjaśnić, dlaczego uważasz, że to źle?
dsaxton
3
Wydaje mi się, że ogólnie uważam, że wiele procesów statystycznych nie jest zdominowanych przez „ważne” predyktory, ponieważ są one nagromadzeniem wielu małych efektów. Na przykład siłę regresji grzbietu można wytłumaczyć jawnym uznaniem tej struktury. Innym sposobem jest powód, dla którego powinniśmy z góry wierzyć w koncepcję „słabego predyktora” i dlaczego powinniśmy je odfiltrowywać? I dlaczego powinniśmy stosować taką nieformalną procedurę, aby to zrobić, gdy glmnetjest ona dostępna?
Matthew Drury
2
W każdej dziedzinie, w której nie jesteśmy ekspertami, chcemy wiedzieć, o co należy się martwić! Wydaje się, że wiele książek o biznesie i zarządzaniu zawiera szczegółowe wyjaśnienie, że identyfikujesz ważne problemy i koncentrujesz się na nich (tak naprawdę). Podejrzewam, że nieporozumienia zwykle zaczynają się od osób niestatystycznych, przypuszczających, że istnieje sposób na określenie ilościowe znaczenia i że zadaniem statystycznych ludzi jest wiedzieć, jak to zrobić i nie martwić ich, jak trudne jest. Nie wiem, jak być mniej ogólnym, ale w niektórych dyskusjach tutaj brakuje kluczowych punktów w twoim pytaniu.
Nick Cox

Odpowiedzi:

8

Argumentowałem, że zmienne znaczenie jest pojęciem śliskim , jak to pytanie stawia. Tautologiczna pierwsza odpowiedź, jaką otrzymujesz na swoje pytanie, i nierealistyczne nadzieje tych, którzy interpretują wyniki o różnym znaczeniu w kategoriach przyczynowości, jak zauważył @DexGroves, wymagają niewielkiego rozwinięcia.

Jednak uczciwie wobec tych, którzy zastosowaliby wsteczną selekcję, nawet Frank Harrell zezwala na to w ramach strategii modelowania. Na stronie 97 jego Strategii modelowania regresji , wydanie drugie (podobne stwierdzenie znajduje się na stronie 131 powiązanych notatek z kursu ):

  1. Dokonuj ograniczonego wyboru zmiennych stopniowych, jeśli oszczędność jest ważniejsza niż dokładność.

To ograniczone potencjalne zastosowanie wyboru wstecznego jest jednak etapem 13, ostatnim krokiem przed ostatecznym modelem (etap 14). Przychodzi dobrze po kluczowych pierwszych krokach:

  1. Zbierz jak najwięcej dokładnych istotnych danych, z szerokimi rozkładami wartości predyktorów ...
  2. Formułuj dobre hipotezy, które prowadzą do specyfikacji odpowiednich predyktorów kandydujących i możliwych interakcji ...

Z mojego doświadczenia wynika, że ​​ludzie często chcą ominąć krok 2 i pozwolić, aby niektóre zautomatyzowane procedury zastąpiły inteligentne zastosowanie wiedzy merytorycznej. Może to prowadzić do tego, że nacisk zostanie położony na zmienne znaczenie.

Po pełnym modelu kroku 14 Harrella następują 5 kolejnych etapów walidacji i dostosowania, z ostatnim krokiem:

  1. Opracuj uproszczenia pełnego modelu, przybliżając go do dowolnego pożądanego stopnia dokładności.

Jak zauważyły ​​inne odpowiedzi, istnieją problemy z wykonalnością, kosztem i prostotą, które wchodzą w praktyczne zastosowanie wyników modelowania. Na przykład, jeśli opracuję nowy biomarker raka, który poprawi rokowanie, ale kosztuje 100 000 USD za test, przekonanie ubezpieczycieli lub rządu do opłacenia testu może być trudne, chyba że jest spektakularnie przydatne. Dlatego nie jest nierozsądne, aby ktoś chciał skupić się na zmiennych, które są „najważniejsze”, lub uprościć dokładny model na taki, który jest nieco mniej dokładny, ale jest łatwiejszy lub tańszy do wdrożenia.

Ale ten wybór zmiennych i uproszczenie modelu powinny mieć konkretny cel i myślę, że właśnie tam powstają trudności. Problem jest podobny do oceny schematów klasyfikacyjnych wyłącznie na podstawie procentu poprawnie sklasyfikowanych przypadków. Tak jak różne błędy klasyfikacji mogą mieć różne koszty, tak różne schematy uproszczenia modelu mogą mieć różne koszty równoważące ich oczekiwane korzyści.

Myślę więc, że kwestią, na której należy się skupić jako analityk, jest zdolność do oszacowania i zilustrowania tych kosztów i korzyści w wiarygodny sposób za pomocą procedur modelowania statystycznego, zamiast martwienia się zbytnio abstrakcyjną koncepcją statystycznej ważności jako takiej. Na przykład na stronach 157-8 wyżej wymienionych notatek Harrella znajduje się przykład użycia paska ładującego, aby pokazać kaprysy predyktorów rankingowych w najmniejszych kwadratach; podobne wyniki można znaleźć dla zbiorów zmiennych wybranych przez LASSO.

Jeśli tego rodzaju zmienność w wyborze zmiennych nie przeszkadza w konkretnym praktycznym zastosowaniu modelu, to jest OK. Zadanie polega na oszacowaniu, ile i jakiego rodzaju problemów spowoduje to uproszczenie.

EdM
źródło
2
To świetna odpowiedź na @EdM i jest całkiem zgodna z opiniami, które wypracowałem w tej sprawie. Szczególnie podoba mi się twoja uwaga, że ​​1) niedopuszczalne predyktory (ze względów moralnych, regulacyjnych lub biznesowych) powinny zostać sprawdzone przed modelowaniem, 2) ostateczne uproszczenie modelu powinno mieć konkretny, określony cel. Zasadniczo są to kwestie, które zwykle staram się rozwiać, zadając pytania moim partnerom biznesowym.
Matthew Drury
P.r(β0)
Biorąc to pod uwagę, wciąż zastanawiam się, czy istnieje jakaś podstawowa koncepcja, którą starają się uchwycić rankingi ważności, czy też wszystkie są jedynie atakami ad hoc z niejasnym problemem statystycznym.
Matthew Drury
1
@MatthewDrury, Frank Harrell zapewnia jeden oparty na zasadach sposób oceny „znaczenia zmiennej” w oparciu o ułamek prawdopodobieństwa log wyjaśniony przez każdą zmienną. Nie to mniej wyrafinowani ludzie prawdopodobnie rozumieją przez to wyrażenie. Podobnie jak ty wykorzystałem ułamek czasu, w którym LASSO wybiera każdy predyktor, spośród wielu próbek bootstrap, jako najlepszy sposób, jaki mogę wymyślić, aby zilustrować kaprysy selekcji zmiennych. To przede wszystkim oderwało mnie od LASSO w kierunku regresji grzbietu w przypadku problemów o średniej skali.
EdM
8

Jest to całkowicie anegdotyczne, ale uważam, że zmienne znaczenie jest przydatne w identyfikowaniu błędów lub słabości GBM.

Zmienna ważność daje rodzaj ogromnego przekroju modelu, którego inaczej trudno byłoby uzyskać. Zmienne znajdujące się wyżej na liście wykazują większą aktywność (to, czy są one bardziej „ważne”, to kolejne pytanie). Często źle zachowujący się predyktor (na przykład coś wybiegającego w przyszłość lub czynnik o dużej liczności) strzela na szczyt.

Jeśli istnieje duża różnica zdań między znaczeniem zmiennej intuicji a znaczeniem zmiennej GBM, zwykle trzeba zdobyć cenną wiedzę lub znaleźć błąd.

Dodałbym trzecią odpowiedź do „dlaczego mnie o to pytasz?” pytanie, które brzmi „ponieważ chcę zrozumieć, co jest przyczyną mojej odpowiedzi”. Eep.

Dex Groves
źródło
4

Rankingi o zmiennym znaczeniu odgrywają określoną rolę w stosowanym świecie biznesu, ilekroć zachodzi potrzeba ustalenia priorytetów potencjalnie dużej liczby danych wejściowych do procesu, dowolnego procesu. Informacje te zapewniają kierunek w postaci ukierunkowanej strategii atakowania problemu, od najbardziej do najmniej ważnych, np. Redukcji kosztów procesu, biorąc pod uwagę, że zmienne można wykorzystać, a nie stałe lub czynniki strukturalne odporne na manipulację. Pod koniec dnia powinno to doprowadzić do pewnego rodzaju testu A / B.

Jednak, o ile ci chodzi, Matt i podobnie jak w przypadku porządków porządkowych, drobne niuanse lub różnice między zmiennymi mogą być niejednoznaczne lub zaciemnione, osłabiając ich przydatność.

Mike Hunter
źródło
Całkowicie zgadzam się z przydatnością zmiennych rankingów w wielu przypadkach biznesowych. Ale tutaj kwestia „różnych algorytmów daje różne rankingi” pozostaje nierozwiązana. Czy masz jakieś sugestie, aby rozwiązać ten problem? Zobacz także moje pytanie tutaj stats.stackexchange.com/q/251248/71287 i poniższe komentarze.
Aliweb,
3
@aliweb Problem różnicy nie ma jednego, stałego, jednolitego rozwiązania. Ta kwestia jest tak subtelna, jak rozróżnienie między hierarchiami a heterarchiami, w których globalne rankingi okazują się w rzeczywistości całkowicie lokalne i przemijające. Najlepsze recenzje literatury na temat względnie zmiennego znaczenia prawdopodobnie należą do Ulrike Groemping, której prace są dość obszerne na temat różnych dostępnych wskaźników. Ponadto jej moduł i metoda R - RELAMPO - jest tak rygorystycznym podejściem do szacowania względnego znaczenia, jak istnieje.
Mike Hunter,
3

Całkowicie się z tobą zgadzam teoretycznie. Jednak z praktycznego punktu widzenia bardzo ważne jest zmienne znaczenie.

Weźmy przykład, w którym firma ubezpieczeniowa chce zmniejszyć liczbę pytań w kwestionariuszu określającym ryzyko swoich klientów. Im bardziej skomplikowany jest kwestionariusz, tym mniej prawdopodobne jest, że klienci kupią swoje produkty. Z tego powodu chcą ograniczyć mniej przydatne pytania przy zachowaniu poziomu kwantyfikacji ryzyka. Rozwiązaniem jest często stosowanie zmiennej ważności w celu ustalenia, które pytania należy usunąć z kwestionariusza (i „mniej więcej” tej samej prognozy dotyczącej profilu ryzyka potencjalnego klienta).

Metariat
źródło
Całkowicie zgadzam się z przydatnością zmiennych rankingów w wielu przypadkach biznesowych. Ale tutaj kwestia „różnych algorytmów daje różne rankingi” pozostaje nierozwiązana. Czy masz jakieś sugestie, aby rozwiązać ten problem? Zobacz także moje pytanie tutaj stats.stackexchange.com/q/251248/71287 i poniższe komentarze.
Aliweb,
@aliweb: Myślę, że Matthew już zapewnił ci doskonałą odpowiedź na twoje pytanie.
Metariat