Jaka jest korzyść z rozbicia ciągłej zmiennej predykcyjnej?

78

Zastanawiam się, jaka jest wartość biorąc ciągłą zmienną predykcyjną i dzieląc ją (np. Na kwintyle) przed użyciem jej w modelu.

Wydaje mi się, że binowanie zmiennej powoduje utratę informacji.

  • Czy to tylko po to, abyśmy mogli modelować efekty nieliniowe?
  • Gdybyśmy utrzymywali zmienną ciągłą i nie byłaby to tak naprawdę prosta liniowa zależność, czy potrzebowalibyśmy jakiejś krzywej, aby jak najlepiej dopasować dane?
Tomek
źródło
12
1) Nie. Masz rację, że binowanie traci informacje. W miarę możliwości należy tego unikać. 2) Zasadniczo preferowana jest funkcja krzywej zgodna z teorią stojącą za danymi.
O_Devinyak
8
Nie wiem o korzyściach, ale istnieje wiele powszechnie znanych niebezpieczeństw
Glen_b
2
Niechętny argument za tym, czasami: może uprościć interpretację kliniczną i prezentację wyników - np. ciśnienie krwi jest często kwadratowym predyktorem, a klinicysta może poprzeć zastosowanie wartości odcięcia dla niskiego, normalnego i wysokiego BP i może być zainteresowany porównaniem tych szerokich grup.
user20650,
4
@ user20650: Nie jestem pewien, czy cię rozumiem, ale czy nie lepiej byłoby dopasować najlepszy model, jaki możesz, a następnie użyć prognoz tego modelu, aby powiedzieć cokolwiek, co chcesz powiedzieć o szerokich grupach? „Grupa z wysokim ciśnieniem krwi” w moim badaniu niekoniecznie będzie miała taki sam rozkład ciśnień jak ogólna populacja, więc ich wyniki nie będą się generalizować.
Scortchi
7
Uproszczona interpretacja kliniczna jest mirażem. Oszacowania efektów na podstawie skategoryzowanych zmiennych ciągłych nie mają znanej interpretacji.
Frank Harrell,

Odpowiedzi:

64

x+x2+

Wartość? - cóż, to szybki i łatwy sposób na uwzględnienie krzywizny bez konieczności myślenia o tym, a model może być wystarczająco dobry do tego, do czego go używasz. Zwykle działa dobrze, gdy masz dużo danych w porównaniu do liczby predyktorów, każdy predyktor jest podzielony na wiele kategorii; w tym przypadku w obrębie każdego pasma predykcyjnego zakres odpowiedzi jest niewielki, a średnia odpowiedź jest precyzyjnie określona.

[Edytuj w odpowiedzi na komentarze:

Czasami w polu stosuje się standardowe wartości graniczne dla zmiennej ciągłej: np. W medycynie pomiary ciśnienia krwi można zaklasyfikować jako niskie, średnie lub wysokie. Może istnieć wiele dobrych powodów, aby stosować takie odcięcia podczas prezentacji lub zastosowania modelu. W szczególności reguły decyzyjne są często oparte na mniejszej ilości informacji niż na modelu i mogą wymagać prostego zastosowania. Ale nie wynika z tego, że te wartości graniczne są odpowiednie do grupowania predyktorów po dopasowaniu modelu.

Załóżmy, że niektóre reakcje zmieniają się ciągle w zależności od ciśnienia krwi. Jeśli zdefiniujesz grupę wysokiego ciśnienia jako predyktor w swoim badaniu, efekt, który oceniasz, jest średnią odpowiedzią na określone ciśnienie krwi osób w tej grupie. To nieoszacowanie średniej odpowiedzi osób z wysokim ciśnieniem krwi w populacji ogólnej lub osób z grupy wysokiego ciśnienia w innym badaniu, chyba że podejmie się odpowiednie środki, aby to zrobić. Jeśli rozkład ciśnienia krwi w populacji ogólnej jest znany, tak jak sobie wyobrażam, lepiej obliczyć średnią odpowiedź osób z wysokim ciśnieniem krwi w populacji ogólnej na podstawie prognoz z modelu z ciśnieniem krwi jako Zmienna ciągła. Surowe binowanie sprawia, że ​​Twój model można w przybliżeniu uogólnić.

Ogólnie rzecz biorąc, jeśli masz pytania dotyczące zachowania odpowiedzi między odcięciami, najpierw dopasuj najlepszy model, jaki możesz, a następnie użyj go, aby na nie odpowiedzieć.]

[W odniesieniu do prezentacji; Myślę, że to czerwony śledź:

(1) Łatwość prezentacji nie usprawiedliwia złych decyzji dotyczących modelowania. (A w przypadkach, w których binowanie jest dobrą decyzją modelowania, nie wymaga dodatkowego uzasadnienia.) Z pewnością jest to oczywiste. Nikt nigdy nie zaleca wyciągania ważnej interakcji z modelu, ponieważ trudno ją przedstawić.

(2) Niezależnie od tego, jaki model pasuje, nadal możesz prezentować jego wyniki w kategoriach kategorii, jeśli uważasz, że pomoże to w interpretacji. Chociaż ...

(3) Musisz być ostrożny, aby upewnić się, że nie pomaga to w błędnej interpretacji z powyższych powodów.

(4) W rzeczywistości nie jest trudno przedstawić odpowiedzi nieliniowe. Jasne jest, że osobista opinia i odbiorcy różnią się; ale nigdy nie widziałem wykresu dopasowanych wartości odpowiedzi w porównaniu do wartości predyktora, który łamałby kogoś tylko dlatego, że jest zakrzywiony. Interakcje, logi, efekty losowe, wielokoliniowość… - wszystko to jest znacznie trudniejsze do wyjaśnienia.]

[Dodatkowym punktem poruszonym przez @Roland jest dokładność pomiaru predyktorów; Myślę, że sugeruje, że kategoryzacja może być odpowiednia, gdy nie są one szczególnie precyzyjne. Zdrowy rozsądek może sugerować, że nie poprawisz spraw, powtarzając je jeszcze mniej precyzyjnie, i zdrowy rozsądek byłby słuszny: MacCallum i in. (2002), „On the Practice of Dychhotomization of Quant Quantities”, Psychological Methods , 7 , 1, s. 17–19.]

Scortchi
źródło
6
Doskonałe komentarze na temat wszechobecnego problemu. Ważne jest, aby propagować tutaj myślenie całkowicie ilościowe. Już teraz kładzie się zbyt duży nacisk na przekraczanie progów, np. Powyżej pewnego poziomu katastrofy, poniżej pewnego poziomu komfortu.
Nick Cox,
14
Rzuciłbym każdemu wyzwanie, aby wykazał uzasadnienie wszelkich ograniczeń stosowanych przez lekarzy.
Frank Harrell,
Warto zauważyć, że to podejście grupowania ma pewne zalety w innych obszarach - jest szczególnie popularne w połączeniu z dużymi sieciami neuronowymi do przewidywania rozkładów multimodalnych, takich jak orientacja pojazdu. Zobacz na przykład arxiv.org/abs/1612.00496 .
N. McA.
11

Częścią tej odpowiedzi, której nauczyłem się od czasu zadawania, jest to, że nie binowanie i binning ma na celu odpowiedź na dwa nieco inne pytania - Jaka jest przyrostowa zmiana danych? a jaka jest różnica między najniższym a najwyższym? .

Brak binningu mówi „jest to kwantyfikacja trendu obserwowanego w danych”, a binning mówi: „Nie mam wystarczających informacji, aby powiedzieć, jak bardzo zmienia się to przy każdym kroku, ale mogę powiedzieć, że góra różni się od dołu” .

Tomek
źródło
5

Jako klinicysta myślę, że odpowiedź zależy od tego, co chcesz zrobić. Jeśli chcesz jak najlepiej dopasować lub dokonać najlepszego dopasowania, możesz użyć zmiennych ciągłych i kwadratowych.

Jeśli chcesz opisać i zakomunikować skomplikowane powiązania dla odbiorców niepistatystycznych statystycznie, lepiej jest użyć zmiennych skategoryzowanych, przyjmując, że w ostatnim dziesiętnym możesz dać nieco nieznaczne wyniki. Wolę używać co najmniej trzech kategorii, aby pokazać powiązania nieliniowe. Alternatywą jest tworzenie wykresów i przewidywanych wyników w określonych punktach. Następnie może być konieczne utworzenie rodziny wykresów dla każdej ciągłej zmiennej towarzyszącej, która może być interesująca. Jeśli boisz się zbyt dużego odchylenia, myślę, że możesz przetestować oba modele i sprawdzić, czy różnica jest ważna, czy nie. Musisz być praktyczny i realistyczny.

Myślę, że możemy zdać sobie sprawę, że w wielu sytuacjach klinicznych nasze obliczenia nie opierają się na dokładnych danych, a kiedy na przykład przepisuję lek dorosłemu, i tak nie robię tego z dokładnymi mg na kilogram (przypowieść o wyborze operacji i leczenia) to tylko nonsens).

Roland
źródło
1
Dlaczego akurat ta analogia jest nonsensem? Ponieważ kategoryzowanie zmiennych ciągłych nigdy nie daje znacznie gorszych modeli? A może dlatego, że zastosowanie znacznie gorszego modelu nigdy nie ma żadnych praktycznych konsekwencji?
Scortchi
9
Tak po prostu nie jest @Roland. Szacunki uzyskane z wartości granicznych są proste, ponieważ ludzie nie rozumieją, co szacunki szacunkowe. Wynika to z tego, że nie szacują wielkości naukowej, tj. Ilości, która ma znaczenie poza próbą lub eksperymentem. Na przykład wysoki: niski iloraz szans lub średnia różnica wzrośnie, jeśli dodasz pacjentów z ultrawysokimi lub ultra niskimi wartościami do zestawu danych. Ponadto zastosowanie wartości odcięcia oznacza, że ​​biologia jest nieciągła, co nie jest prawdą.
Frank Harrell,
@Scortchi Zmiana z leczenia medycznego na chirurgiczne, ponieważ łatwiej jest to wytłumaczyć (czy to naprawdę?) Przypominałaby zastąpienie wieku wzrostem jako zmiennej objaśniającej.
Roland
Zgadzam się na unikanie dychotomicznych zmiennych. Medycyna kliniczna nie jest nauką rocka, w której ważny jest ostatni przecinek. W modelach pracuję z wynikami, które zmieniają się tylko w ostatnim miejscu po przecinku, jeśli użyję kategorii wieku w zależności od wieku jako zmiennych ciągłych i kwadratowych, ale znacznie zwiększy zrozumienie i komunikację powiązań.
Roland
4

Jak wspomniano w poprzednich plakatach, na ogół najlepiej unikać dychotomizacji zmiennej ciągłej. Jednak w odpowiedzi na twoje pytanie istnieją przypadki, w których dychotomizacja zmiennej ciągłej przynosi korzyści.

Na przykład, jeśli dana zmienna zawiera brakujące wartości dla znacznej części populacji, ale wiadomo, że jest wysoce predykcyjna, a same brakujące wartości mają wartość predykcyjną. Na przykład w modelu punktacji kredytowej rozważmy zmienną, powiedzmy średnią saldo obrotów odnawialnych (która jest przyznana, nie jest technicznie ciągła, ale w tym przypadku odzwierciedla rozkład normalny wystarczająco bliski, aby być traktowana jako taka), która zawiera brakujące wartości dla około 20% puli wnioskodawców na danym rynku docelowym. W tym przypadku brakujące wartości dla tej zmiennej reprezentują odrębną klasę - tych, którzy nie mają otwartej linii kredytu odnawialnego; klienci ci zachowują się zupełnie inaczej niż ci, powiedzmy, ci z dostępnymi odnawialnymi liniami kredytowymi, ale którzy regularnie nie mają salda.

Kolejna korzyść z dychotomizacji: może być wykorzystana do złagodzenia skutków znacznych wartości odstających, które wypaczają współczynniki, ale reprezentują realistyczne przypadki, z którymi należy sobie poradzić. Jeśli wyniki odstające nie różnią się znacznie od innych wartości w najbliższych percentylach, ale wykrzywiają parametry na tyle, aby uzyskać marginalną dokładność, może być korzystne grupowanie ich z wartościami o podobnych efektach.

Czasami rozkład w naturalny sposób nadaje się do zestawu klas, w którym to przypadku dychotomizacja rzeczywiście zapewnia wyższy stopień dokładności niż funkcja ciągła.

Jak już wcześniej wspomniano, w zależności od odbiorców łatwość prezentacji może przeważyć straty dokładności. Aby ponownie zastosować punktację kredytową jako przykład, w praktyce wysoki stopień regulacji stanowi praktyczny przypadek dyskretyzacji. Podczas gdy wyższy stopień dokładności może pomóc pożyczkodawcy zmniejszyć straty, praktykujący muszą również wziąć pod uwagę fakt, że modele muszą być łatwo zrozumiałe dla organów regulacyjnych (którzy mogą zażądać tysięcy stron dokumentacji modelu) i konsumentów, którym w przypadku odmowy uznania przysługuje prawo do wyjaśnienie dlaczego.

Wszystko zależy od aktualnego problemu i danych, ale z pewnością istnieją przypadki, w których dychotomizacja ma swoje zalety.

cjthompson
źródło
Dychotomizacja polega na umieszczeniu dwóch pojemników - czy masz na myśli dyskretyzację?
Scortchi
2
W obu twoich pierwszych dwóch przykładach dyskretyzacja próbuje wkroczyć na imprezę, zaczepiając się w dobrej wierze. Nie daj się zwieść. (1) Jeśli chcesz modelować brak otwartej linii odnawialnego kredytu jako odrębną klasę, po prostu użyj zmiennej fikcyjnej, aby wskazać ten warunek i przypisać dowolną stałą wartość średniego salda kredytu odnawialnego. (2) Jeśli chcesz traktować niektóre ekstremalne wartości predykcyjne identycznie, jako „duże” lub „małe”, obetnij je; nie trzeba się przejmować resztą wartości. Trzeci przypadek jest bezsporny - możesz dodawać przykłady.
Scortchi
3

Jeśli zmienna ma wpływ na określony próg, utwórz nową zmienną poprzez binowanie, to dobrze jest zrobić. Zawsze przechowuję obie zmienne, oryginalną i binowanie, i sprawdzam, która zmienna jest lepszym predyktorem.

Nguyen
źródło
3

Jestem zagorzałym fanem rady Franka Harrella, że ​​analitycy powinni opierać się przedwczesnej dyskretyzacji ciągłych danych. Mam kilka odpowiedzi na temat CV i SO, które pokazują, jak wizualizować interakcje między zmiennymi ciągłymi, ponieważ uważam, że jest to jeszcze bardziej wartościowa linia badań. Mam jednak również doświadczenie w świecie medycznym w zakresie barier w przestrzeganiu tej rady. Często istnieją atrakcyjne podziały, których zarówno klinicyści, jak i nieklinicy oczekują w przypadku „podziałów”. Konwencjonalna „górna granica normy” jest jednym z takich „naturalnych” punktów podziału. Zasadniczo jednym z nich jest najpierw zbadanie podstaw statystycznych relacji, a następnie przekazanie istoty ustaleń w kategoriach, których odbiorcy oczekują i mogą łatwo zrozumieć. Pomimo mojej „alergii” do wykresów słupkowych są one niezwykle powszechne w dyskursie naukowym i medycznym. Dlatego odbiorcy prawdopodobnie będą mieli gotowy wzorzec poznawczy do ich przetworzenia i będą mogli zintegrować wyniki z bazą wiedzy.

Ponadto graficzne przedstawienie modelowanych interakcji między nieliniowymi formami zmiennych predykcyjnych wymaga prezentacji wykresów konturowych lub ekranów szkieletowych, z którymi większość odbiorców będzie miała pewne problemy z trawieniem. Zauważyłem, że medycyna i ogół społeczeństwa są bardziej otwarci na prezentacje, które dyskrecjonują i segmentują wyniki. Przypuszczam więc, że wniosek jest taki, że podział jest właściwie wykonywany po zakończeniu analizy statystycznej; i odbywa się to w fazie prezentacji.

DWin
źródło
1

Wiele razy łączenie zmiennych ciągłych powoduje niespokojne uczucie powodowania szkód z powodu utraty informacji. Jednak nie tylko możesz ograniczyć utratę informacji, ale możesz uzyskać informacje i uzyskać więcej korzyści.

Jeśli używasz binowania i otrzymujesz skategoryzowane zmienne, być może będziesz w stanie zastosować algorytmy uczenia się, które nie mają zastosowania do zmiennych ciągłych. Twój zestaw danych może lepiej pasować do jednego z tych algorytmów, więc oto Twoja pierwsza korzyść.

Pomysł oszacowania straty z powodu binowania opiera się na pracy „Uczenie się PAC z nieistotnymi atrybutami”. Załóżmy, że nasza koncepcja jest binarna, abyśmy mogli podzielić próbki na pozytywne i negatywne. Dla każdej pary próbek ujemnych i dodatnich różnicę w koncepcji można wyjaśnić różnicą w jednej z cech (lub inaczej, nie da się tego wyjaśnić podanymi cechami). Zbiór różnic cech jest zbiorem możliwych wyjaśnień różnicy pojęć, stąd dane do wykorzystania do ustalenia pojęcia. Jeśli zrobiliśmy binowanie i nadal otrzymujemy ten sam zestaw wyjaśnień dla par, nie stracilibyśmy żadnych potrzebnych informacji (w odniesieniu do algorytmów uczenia się, które działają na podstawie takich porównań). Jeśli nasza kategoryzacja będzie bardzo ścisła, prawdopodobnie będziemy mieli mniejszy zestaw możliwych wyjaśnień, ale będziemy w stanie dokładnie zmierzyć, ile i gdzie stracimy. Umożliwi nam to zamianę liczby pojemników na zestaw wyjaśnień.

Do tej pory widzieliśmy, że nie możemy stracić z powodu kategoryzacji, ale jeśli rozważymy zastosowanie takiego kroku, chcielibyśmy skorzystać. Rzeczywiście możemy skorzystać z kategoryzacji

Wiele algorytmów uczenia się, które zostaną poproszone o klasyfikację próbki o wartościach niewidocznych w zestawie pociągów, uzna tę wartość za „nieznaną”. Stąd otrzymamy koszyk „nieznany”, który zawiera WSZYSTKIE wartości niewidoczne podczas pociągu (lub nawet niewystarczająco widoczne). W przypadku takich algorytmów różnica między nieznanymi parami wartości nie będzie wykorzystywana do poprawy klasyfikacji. Porównaj swoje pary po binowaniu z parami z nieznanymi i sprawdź, czy twoje binowanie jest przydatne i czy faktycznie zyskałeś.

Możesz oszacować, jak częste będą nieznane wartości, sprawdzając rozkład wartości każdej funkcji. Cechami były wartości, które pojawiają się tylko kilka razy, a znaczna część ich dystrybucji są dobrymi kandydatami do binowania. Zauważ, że w wielu scenariuszach będziesz mieć wiele funkcji z nieznanym zwiększającym prawdopodobieństwo, że próbka będzie zawierała nieznaną wartość. Algorytmy, które traktują wszystkie lub wiele funkcji, są podatne na błędy w takich sytuacjach.

A. Dhagat i L. Hellerstein, „Uczenie się PAC z nieistotnymi atrybutami”, w „Proceedings of IEEE Symp. on Foundation of Computer Science ”, 1994. http://citeseer.ist.psu.edu/dhagat94pac.html

DaL
źródło