Myślę o problemie polegającym na przewidywaniu dziennika (wydatków) klienta za pomocą regresji liniowej.
Zastanawiam się, jakich funkcji użyć jako danych wejściowych i zastanawiam się, czy użyteczne byłoby użycie percentyla zmiennej jako danych wejściowych.
Na przykład mógłbym wykorzystać przychody firm jako wkład. Zastanawiam się, czy zamiast tego mógłbym użyć percentyla przychodów firmy.
Innym przykładem byłby kategoryczny klasyfikator branżowy (NAICS) - jeśli miałbym spojrzeć na medianę wydatków na kod NAICS, a następnie przypisać każdy kod NAICS do „Percentile NAICS”, czy byłby to prawidłowa zmienna objaśniająca, której mogłabym użyć?
Zastanawiasz się tylko, czy są jakieś problemy, o których należy pamiętać podczas używania percentyli? Czy jest to w jakiś sposób równoważne rodzajowi skalowania funkcji?
źródło
Odpowiedzi:
Jeśli twój model wiąże się z pewną konkurencją w przychodach firmy, możesz użyć percentyla. Log percentyl wydaje się bardziej znaczący, kwantyle nie będą miały liniowej wartości, a przynajmniej tak mi się wydaje.
W tej historii uwzględniono 1% (firm) firm z przychodami pod firmą obserwacyjną. Historia polega na tym, że przy wysokich przychodach mają reputację lepszą niż firmy o niskich dochodach, a ta relacja „posiadania więcej niż konkurencji” jest istotna, a nie sam poziom przychodów. Mogłem to postrzegać jako ważną część rozpoznawalności i marki.
źródło