Zastanawiam się, jaka jest wartość biorąc ciągłą zmienną predykcyjną i dzieląc ją (np. Na kwintyle) przed użyciem jej w modelu.
Wydaje mi się, że binowanie zmiennej powoduje utratę informacji.
- Czy to tylko po to, abyśmy mogli modelować efekty nieliniowe?
- Gdybyśmy utrzymywali zmienną ciągłą i nie byłaby to tak naprawdę prosta liniowa zależność, czy potrzebowalibyśmy jakiejś krzywej, aby jak najlepiej dopasować dane?
Odpowiedzi:
Wartość? - cóż, to szybki i łatwy sposób na uwzględnienie krzywizny bez konieczności myślenia o tym, a model może być wystarczająco dobry do tego, do czego go używasz. Zwykle działa dobrze, gdy masz dużo danych w porównaniu do liczby predyktorów, każdy predyktor jest podzielony na wiele kategorii; w tym przypadku w obrębie każdego pasma predykcyjnego zakres odpowiedzi jest niewielki, a średnia odpowiedź jest precyzyjnie określona.
[Edytuj w odpowiedzi na komentarze:
Czasami w polu stosuje się standardowe wartości graniczne dla zmiennej ciągłej: np. W medycynie pomiary ciśnienia krwi można zaklasyfikować jako niskie, średnie lub wysokie. Może istnieć wiele dobrych powodów, aby stosować takie odcięcia podczas prezentacji lub zastosowania modelu. W szczególności reguły decyzyjne są często oparte na mniejszej ilości informacji niż na modelu i mogą wymagać prostego zastosowania. Ale nie wynika z tego, że te wartości graniczne są odpowiednie do grupowania predyktorów po dopasowaniu modelu.
Załóżmy, że niektóre reakcje zmieniają się ciągle w zależności od ciśnienia krwi. Jeśli zdefiniujesz grupę wysokiego ciśnienia jako predyktor w swoim badaniu, efekt, który oceniasz, jest średnią odpowiedzią na określone ciśnienie krwi osób w tej grupie. To nieoszacowanie średniej odpowiedzi osób z wysokim ciśnieniem krwi w populacji ogólnej lub osób z grupy wysokiego ciśnienia w innym badaniu, chyba że podejmie się odpowiednie środki, aby to zrobić. Jeśli rozkład ciśnienia krwi w populacji ogólnej jest znany, tak jak sobie wyobrażam, lepiej obliczyć średnią odpowiedź osób z wysokim ciśnieniem krwi w populacji ogólnej na podstawie prognoz z modelu z ciśnieniem krwi jako Zmienna ciągła. Surowe binowanie sprawia, że Twój model można w przybliżeniu uogólnić.
Ogólnie rzecz biorąc, jeśli masz pytania dotyczące zachowania odpowiedzi między odcięciami, najpierw dopasuj najlepszy model, jaki możesz, a następnie użyj go, aby na nie odpowiedzieć.]
[W odniesieniu do prezentacji; Myślę, że to czerwony śledź:
(1) Łatwość prezentacji nie usprawiedliwia złych decyzji dotyczących modelowania. (A w przypadkach, w których binowanie jest dobrą decyzją modelowania, nie wymaga dodatkowego uzasadnienia.) Z pewnością jest to oczywiste. Nikt nigdy nie zaleca wyciągania ważnej interakcji z modelu, ponieważ trudno ją przedstawić.
(2) Niezależnie od tego, jaki model pasuje, nadal możesz prezentować jego wyniki w kategoriach kategorii, jeśli uważasz, że pomoże to w interpretacji. Chociaż ...
(3) Musisz być ostrożny, aby upewnić się, że nie pomaga to w błędnej interpretacji z powyższych powodów.
(4) W rzeczywistości nie jest trudno przedstawić odpowiedzi nieliniowe. Jasne jest, że osobista opinia i odbiorcy różnią się; ale nigdy nie widziałem wykresu dopasowanych wartości odpowiedzi w porównaniu do wartości predyktora, który łamałby kogoś tylko dlatego, że jest zakrzywiony. Interakcje, logi, efekty losowe, wielokoliniowość… - wszystko to jest znacznie trudniejsze do wyjaśnienia.]
[Dodatkowym punktem poruszonym przez @Roland jest dokładność pomiaru predyktorów; Myślę, że sugeruje, że kategoryzacja może być odpowiednia, gdy nie są one szczególnie precyzyjne. Zdrowy rozsądek może sugerować, że nie poprawisz spraw, powtarzając je jeszcze mniej precyzyjnie, i zdrowy rozsądek byłby słuszny: MacCallum i in. (2002), „On the Practice of Dychhotomization of Quant Quantities”, Psychological Methods , 7 , 1, s. 17–19.]
źródło
Częścią tej odpowiedzi, której nauczyłem się od czasu zadawania, jest to, że nie binowanie i binning ma na celu odpowiedź na dwa nieco inne pytania - Jaka jest przyrostowa zmiana danych? a jaka jest różnica między najniższym a najwyższym? .
Brak binningu mówi „jest to kwantyfikacja trendu obserwowanego w danych”, a binning mówi: „Nie mam wystarczających informacji, aby powiedzieć, jak bardzo zmienia się to przy każdym kroku, ale mogę powiedzieć, że góra różni się od dołu” .
źródło
Jako klinicysta myślę, że odpowiedź zależy od tego, co chcesz zrobić. Jeśli chcesz jak najlepiej dopasować lub dokonać najlepszego dopasowania, możesz użyć zmiennych ciągłych i kwadratowych.
Jeśli chcesz opisać i zakomunikować skomplikowane powiązania dla odbiorców niepistatystycznych statystycznie, lepiej jest użyć zmiennych skategoryzowanych, przyjmując, że w ostatnim dziesiętnym możesz dać nieco nieznaczne wyniki. Wolę używać co najmniej trzech kategorii, aby pokazać powiązania nieliniowe. Alternatywą jest tworzenie wykresów i przewidywanych wyników w określonych punktach. Następnie może być konieczne utworzenie rodziny wykresów dla każdej ciągłej zmiennej towarzyszącej, która może być interesująca. Jeśli boisz się zbyt dużego odchylenia, myślę, że możesz przetestować oba modele i sprawdzić, czy różnica jest ważna, czy nie. Musisz być praktyczny i realistyczny.
Myślę, że możemy zdać sobie sprawę, że w wielu sytuacjach klinicznych nasze obliczenia nie opierają się na dokładnych danych, a kiedy na przykład przepisuję lek dorosłemu, i tak nie robię tego z dokładnymi mg na kilogram (przypowieść o wyborze operacji i leczenia) to tylko nonsens).
źródło
Jak wspomniano w poprzednich plakatach, na ogół najlepiej unikać dychotomizacji zmiennej ciągłej. Jednak w odpowiedzi na twoje pytanie istnieją przypadki, w których dychotomizacja zmiennej ciągłej przynosi korzyści.
Na przykład, jeśli dana zmienna zawiera brakujące wartości dla znacznej części populacji, ale wiadomo, że jest wysoce predykcyjna, a same brakujące wartości mają wartość predykcyjną. Na przykład w modelu punktacji kredytowej rozważmy zmienną, powiedzmy średnią saldo obrotów odnawialnych (która jest przyznana, nie jest technicznie ciągła, ale w tym przypadku odzwierciedla rozkład normalny wystarczająco bliski, aby być traktowana jako taka), która zawiera brakujące wartości dla około 20% puli wnioskodawców na danym rynku docelowym. W tym przypadku brakujące wartości dla tej zmiennej reprezentują odrębną klasę - tych, którzy nie mają otwartej linii kredytu odnawialnego; klienci ci zachowują się zupełnie inaczej niż ci, powiedzmy, ci z dostępnymi odnawialnymi liniami kredytowymi, ale którzy regularnie nie mają salda.
Kolejna korzyść z dychotomizacji: może być wykorzystana do złagodzenia skutków znacznych wartości odstających, które wypaczają współczynniki, ale reprezentują realistyczne przypadki, z którymi należy sobie poradzić. Jeśli wyniki odstające nie różnią się znacznie od innych wartości w najbliższych percentylach, ale wykrzywiają parametry na tyle, aby uzyskać marginalną dokładność, może być korzystne grupowanie ich z wartościami o podobnych efektach.
Czasami rozkład w naturalny sposób nadaje się do zestawu klas, w którym to przypadku dychotomizacja rzeczywiście zapewnia wyższy stopień dokładności niż funkcja ciągła.
Jak już wcześniej wspomniano, w zależności od odbiorców łatwość prezentacji może przeważyć straty dokładności. Aby ponownie zastosować punktację kredytową jako przykład, w praktyce wysoki stopień regulacji stanowi praktyczny przypadek dyskretyzacji. Podczas gdy wyższy stopień dokładności może pomóc pożyczkodawcy zmniejszyć straty, praktykujący muszą również wziąć pod uwagę fakt, że modele muszą być łatwo zrozumiałe dla organów regulacyjnych (którzy mogą zażądać tysięcy stron dokumentacji modelu) i konsumentów, którym w przypadku odmowy uznania przysługuje prawo do wyjaśnienie dlaczego.
Wszystko zależy od aktualnego problemu i danych, ale z pewnością istnieją przypadki, w których dychotomizacja ma swoje zalety.
źródło
Jeśli zmienna ma wpływ na określony próg, utwórz nową zmienną poprzez binowanie, to dobrze jest zrobić. Zawsze przechowuję obie zmienne, oryginalną i binowanie, i sprawdzam, która zmienna jest lepszym predyktorem.
źródło
Jestem zagorzałym fanem rady Franka Harrella, że analitycy powinni opierać się przedwczesnej dyskretyzacji ciągłych danych. Mam kilka odpowiedzi na temat CV i SO, które pokazują, jak wizualizować interakcje między zmiennymi ciągłymi, ponieważ uważam, że jest to jeszcze bardziej wartościowa linia badań. Mam jednak również doświadczenie w świecie medycznym w zakresie barier w przestrzeganiu tej rady. Często istnieją atrakcyjne podziały, których zarówno klinicyści, jak i nieklinicy oczekują w przypadku „podziałów”. Konwencjonalna „górna granica normy” jest jednym z takich „naturalnych” punktów podziału. Zasadniczo jednym z nich jest najpierw zbadanie podstaw statystycznych relacji, a następnie przekazanie istoty ustaleń w kategoriach, których odbiorcy oczekują i mogą łatwo zrozumieć. Pomimo mojej „alergii” do wykresów słupkowych są one niezwykle powszechne w dyskursie naukowym i medycznym. Dlatego odbiorcy prawdopodobnie będą mieli gotowy wzorzec poznawczy do ich przetworzenia i będą mogli zintegrować wyniki z bazą wiedzy.
Ponadto graficzne przedstawienie modelowanych interakcji między nieliniowymi formami zmiennych predykcyjnych wymaga prezentacji wykresów konturowych lub ekranów szkieletowych, z którymi większość odbiorców będzie miała pewne problemy z trawieniem. Zauważyłem, że medycyna i ogół społeczeństwa są bardziej otwarci na prezentacje, które dyskrecjonują i segmentują wyniki. Przypuszczam więc, że wniosek jest taki, że podział jest właściwie wykonywany po zakończeniu analizy statystycznej; i odbywa się to w fazie prezentacji.
źródło
Wiele razy łączenie zmiennych ciągłych powoduje niespokojne uczucie powodowania szkód z powodu utraty informacji. Jednak nie tylko możesz ograniczyć utratę informacji, ale możesz uzyskać informacje i uzyskać więcej korzyści.
Jeśli używasz binowania i otrzymujesz skategoryzowane zmienne, być może będziesz w stanie zastosować algorytmy uczenia się, które nie mają zastosowania do zmiennych ciągłych. Twój zestaw danych może lepiej pasować do jednego z tych algorytmów, więc oto Twoja pierwsza korzyść.
Pomysł oszacowania straty z powodu binowania opiera się na pracy „Uczenie się PAC z nieistotnymi atrybutami”. Załóżmy, że nasza koncepcja jest binarna, abyśmy mogli podzielić próbki na pozytywne i negatywne. Dla każdej pary próbek ujemnych i dodatnich różnicę w koncepcji można wyjaśnić różnicą w jednej z cech (lub inaczej, nie da się tego wyjaśnić podanymi cechami). Zbiór różnic cech jest zbiorem możliwych wyjaśnień różnicy pojęć, stąd dane do wykorzystania do ustalenia pojęcia. Jeśli zrobiliśmy binowanie i nadal otrzymujemy ten sam zestaw wyjaśnień dla par, nie stracilibyśmy żadnych potrzebnych informacji (w odniesieniu do algorytmów uczenia się, które działają na podstawie takich porównań). Jeśli nasza kategoryzacja będzie bardzo ścisła, prawdopodobnie będziemy mieli mniejszy zestaw możliwych wyjaśnień, ale będziemy w stanie dokładnie zmierzyć, ile i gdzie stracimy. Umożliwi nam to zamianę liczby pojemników na zestaw wyjaśnień.
Do tej pory widzieliśmy, że nie możemy stracić z powodu kategoryzacji, ale jeśli rozważymy zastosowanie takiego kroku, chcielibyśmy skorzystać. Rzeczywiście możemy skorzystać z kategoryzacji
Wiele algorytmów uczenia się, które zostaną poproszone o klasyfikację próbki o wartościach niewidocznych w zestawie pociągów, uzna tę wartość za „nieznaną”. Stąd otrzymamy koszyk „nieznany”, który zawiera WSZYSTKIE wartości niewidoczne podczas pociągu (lub nawet niewystarczająco widoczne). W przypadku takich algorytmów różnica między nieznanymi parami wartości nie będzie wykorzystywana do poprawy klasyfikacji. Porównaj swoje pary po binowaniu z parami z nieznanymi i sprawdź, czy twoje binowanie jest przydatne i czy faktycznie zyskałeś.
Możesz oszacować, jak częste będą nieznane wartości, sprawdzając rozkład wartości każdej funkcji. Cechami były wartości, które pojawiają się tylko kilka razy, a znaczna część ich dystrybucji są dobrymi kandydatami do binowania. Zauważ, że w wielu scenariuszach będziesz mieć wiele funkcji z nieznanym zwiększającym prawdopodobieństwo, że próbka będzie zawierała nieznaną wartość. Algorytmy, które traktują wszystkie lub wiele funkcji, są podatne na błędy w takich sytuacjach.
A. Dhagat i L. Hellerstein, „Uczenie się PAC z nieistotnymi atrybutami”, w „Proceedings of IEEE Symp. on Foundation of Computer Science ”, 1994. http://citeseer.ist.psu.edu/dhagat94pac.html
źródło