Kiedy powinniśmy dyskretyzować / bin niezależne zmienne / cechy, a kiedy nie?
Moje próby odpowiedzi na pytanie:
- Zasadniczo nie powinniśmy binować, ponieważ binowanie spowoduje utratę informacji.
- Binning faktycznie zwiększa stopień swobody modelu, więc możliwe jest spowodowanie nadmiernego dopasowania po binningu. Jeśli mamy model „dużej odchylenia”, binowanie może nie być złe, ale jeśli mamy model „dużej wariancji”, powinniśmy unikać binowania.
- To zależy od używanego modelu. Jeśli jest to tryb liniowy, a dane mają dużo „wartości odstających”, prawdopodobieństwo binowania jest lepsze. Jeśli mamy model drzewa, wówczas wartości odstające i binowanie będą zbyt duże.
Czy mam rację? i co jeszcze?
Myślałem, że to pytanie powinno być zadawane wiele razy, ale nie mogę znaleźć w CV tylko tych postów
Odpowiedzi:
Wygląda na to, że szukasz odpowiedzi z predykcyjnego punktu widzenia, dlatego przygotowałem krótką prezentację dwóch podejść w R
Poniżej podałem kod funkcji, która automatycznie porówna dwie metody dla dowolnej funkcji prawdziwego sygnału
Ta funkcja utworzy hałaśliwe zestawy danych treningowych i testowych na podstawie danego sygnału, a następnie dopasuje szereg regresji liniowych do danych treningowych dwóch typów
cuts
Model obejmuje binned predykcyjnych, utworzonych przez segmenty zakres danych w równych rozmiarach półotwartą odstępach czasu, a następnie tworząc predykcyjnych binarną wskazującą, do którego interwał każdy punkt należący szkolenia.splines
Model obejmuje naturalną sześcienny Podstawa wielowypustowy rozprężania z węzłów równomiernie rozmieszczone na całym obszarze predyktora.Argumenty są
signal
: Funkcja jednej zmiennej reprezentująca prawdę, którą należy oszacować.N
: Liczba próbek, które należy uwzględnić zarówno w danych szkoleniowych, jak i testowych.noise
: Mnóstwo losowego hałasu gaussowskiego w celu zwiększenia sygnału treningowego i testowego.range
: Zakres danych szkoleniowych i testowychx
, dane są generowane jednolicie w tym zakresie.max_paramters
: Maksymalna liczba parametrów do oszacowania w modelu. Jest to zarówno maksymalna liczba segmentów wcuts
modelu, jak i maksymalna liczba węzłów wsplines
modelu.Zauważ, że liczba parametrów oszacowana w
splines
modelu jest taka sama jak liczba węzłów, więc oba modele są dość porównywane.Obiekt zwrotny z funkcji ma kilka składników
signal_plot
: Wykres funkcji sygnału.data_plot
: Wykres punktowy danych treningowych i testowych.errors_comparison_plot
: Wykres pokazujący ewolucję sumy kwadratowego poziomu błędu dla obu modeli w zakresie liczby ustalonych parametrów.Pokażę z dwiema funkcjami sygnału. Pierwszą jest fala sinusoidalna z nakładającym się rosnącym trendem liniowym
Oto jak ewoluują poziomy błędów
Drugi przykład to szalona funkcja, którą trzymam tylko dla tego rodzaju rzeczy, wykreśl ją i zobacz
A dla zabawy jest to nudna funkcja liniowa
Możesz to zobaczyć:
Dlatego splajny należy zawsze wybierać z predykcyjnego punktu widzenia.
Kod
Oto kod, którego użyłem do stworzenia tych porównań. Założyłem to wszystko w funkcję, abyś mógł wypróbować to z własnymi funkcjami sygnałowymi. Konieczne będzie zaimportowanie bibliotek
ggplot2
isplines
R.źródło
Agregacja ma znaczenie merytoryczne (niezależnie od tego, czy badacz jest tego świadomy).
Należy binować dane, w tym zmienne niezależne, na podstawie samych danych, gdy chce się:
Do krwotoków mocy statystycznej.
Do stronniczości miar asocjacji.
Wydaje mi się, że literatura zaczyna się od Ghelke i Biehla (1934 - na pewno warta przeczytania i sugeruje kilka łatwych symulacji komputerowych, które można uruchomić dla siebie), a kontynuowana jest zwłaszcza w literaturze „problem z modyfikowalnymi jednostkami powierzchniowymi” (Openshaw , 1983; Dudley, 1991; Lee i Kemp, 2000) wyjaśniają oba te punkty.
Jeśli nie ma się teorii a priori o skali agregacji (do ilu jednostek należy agregować) i funkcji kategoryzacji agregacji (do których indywidualnych obserwacji dojdzie w których jednostkach agregujących), nie należy agregować. Na przykład w epidemiologii dbamy o zdrowie jednostek i zdrowie populacji . Te ostatnie nie są po prostu przypadkowymi zbiorami tych pierwszych, ale są zdefiniowane na przykład przez granice geopolityczne, okoliczności społeczne, takie jak kategoryzacja rasowo-etniczna, status karceralny i kategorie historyczne itp. (Zobacz na przykład Krieger, 2012)
Odnośniki
Dudley, G. (1991). Skala, agregacja i problem modyfikowalnej jednostki powierzchni . [płatny mur] The Operational Geographer, 9 (3): 28–33.
Gehlke, CE i Biehl, K. (1934). Pewne skutki grupowania na podstawie wielkości współczynnika korelacji w materiale kanału spisowego . [pay-walled] Journal of American Statistics Association , 29 (185): 169–170.
Krieger, N. (2012). Kto i czym jest „populacja”? historyczne debaty, aktualne kontrowersje i implikacje dla zrozumienia „zdrowia populacji” i niwelowania nierówności zdrowotnych . The Milbank Quarterly , 90 (4): 634–681.
Lee, HTK i Kemp, Z. (2000). Hierarchiczne rozumowanie i analityczne przetwarzanie on-line danych przestrzennych i czasowych . W postępowaniu z 9. Międzynarodowego Sympozjum na temat przetwarzania danych przestrzennych , Pekin, Chiny PR. Międzynarodowa Unia Geograficzna.
Openshaw, S. (1983). Problem z modyfikowalną jednostką powierzchniową. Koncepcje i techniki współczesnej geografii . Geo Books, Norwich, Wielka Brytania.
źródło