Używanie percentyli jako predyktorów - dobry pomysł?

9

Myślę o problemie polegającym na przewidywaniu dziennika (wydatków) klienta za pomocą regresji liniowej.

Zastanawiam się, jakich funkcji użyć jako danych wejściowych i zastanawiam się, czy użyteczne byłoby użycie percentyla zmiennej jako danych wejściowych.

Na przykład mógłbym wykorzystać przychody firm jako wkład. Zastanawiam się, czy zamiast tego mógłbym użyć percentyla przychodów firmy.

Innym przykładem byłby kategoryczny klasyfikator branżowy (NAICS) - jeśli miałbym spojrzeć na medianę wydatków na kod NAICS, a następnie przypisać każdy kod NAICS do „Percentile NAICS”, czy byłby to prawidłowa zmienna objaśniająca, której mogłabym użyć?

Zastanawiasz się tylko, czy są jakieś problemy, o których należy pamiętać podczas używania percentyli? Czy jest to w jakiś sposób równoważne rodzajowi skalowania funkcji?

andrewm4894
źródło
2
Jeśli masz oryginalne dane, dlaczego chcesz używać percentyli? Może to nie jest dobry pomysł, ponieważ percentyle są tylko porządkowe, a nie miary metryczne. Ale nie jestem pewien co do stronniczości / wydajności.
hplieninger
9
Percentiling z s jest niezgodne z oni droga to s mają swój efekt. Częstym błędem jest percentyl masy lub BMI podczas przewidywania wyniku zdrowotnego. Fizyka masy dyktuje, że to fizyczne wymiary osoby odnoszą się do jej funkcji ciała, a nie to, ile osób w próbie jest poniżej masy lub BMI jednego pacjenta. XX
Frank Harrell,
1
jeśli możesz rozsądnie grupować swoją zmienną branżową w grupy, np. 4, użyj fałszywego kodowania (lub innego odpowiedniego schematu kodowania) i gotowe. Tak bym to zrobił.
hplieninger
3
Nie mogę wymyślić powodu, dla którego percentyl byłby liniowo powiązany ze zmienną zależną. Jeśli możesz pomyśleć o jednym, może być w porządku (i zaktualizuj swoje pytanie o powód)
Peter Flom
1
Jeśli chcesz użyć kodu NAICS jako proxy dla wydatków firmy, możesz to zrobić, wykorzystując średnie wydatki w kodzie NAICS - nie musisz używać percentyli.
Scortchi - Przywróć Monikę

Odpowiedzi:

1

Jeśli twój model wiąże się z pewną konkurencją w przychodach firmy, możesz użyć percentyla. Log percentyl wydaje się bardziej znaczący, kwantyle nie będą miały liniowej wartości, a przynajmniej tak mi się wydaje.

W tej historii uwzględniono 1% (firm) firm z przychodami pod firmą obserwacyjną. Historia polega na tym, że przy wysokich przychodach mają reputację lepszą niż firmy o niskich dochodach, a ta relacja „posiadania więcej niż konkurencji” jest istotna, a nie sam poziom przychodów. Mogłem to postrzegać jako ważną część rozpoznawalności i marki.

Regress Forward
źródło