Mam 2 proste pytania dotyczące regresji liniowej:
- Kiedy zaleca się ujednolicenie zmiennych objaśniających?
- Po przeprowadzeniu oszacowania ze znormalizowanymi wartościami, jak można przewidzieć nowe wartości (jak należy znormalizować nowe wartości)?
Niektóre referencje byłyby pomocne.
Odpowiedzi:
Chociaż terminologia jest spornym tematem, wolę nazywać zmienne „objaśniające”, zmienne „predykcyjne”.
Kiedy ujednolicić predyktory:
Myślę również, że poleganie na standardowych zmiennych może odwrócić uwagę od faktu, że nie zastanawialiśmy się, jak uczynić metrykę zmiennej bardziej znaczącą dla czytelnika.
Andrew Gelman ma sporo do powiedzenia na ten temat. Zobacz na przykład jego stronę dotyczącą standaryzacji, aw szczególności Gelman (2008, Stats Med, DARMOWY PDF) .
Prognozy oparte na standaryzacji:
źródło
Pozwól, że odpowiem krótkim ciastem, które może pokrywać się z doskonałą odpowiedzią napisaną wcześniej.
Zawsze standaryzuj, co pozwala lepiej interpretować regresję, a zwłaszcza jej współczynniki.
W przypadku nowych danych, które nie są standaryzowane, zalecam przechowywanie wartości użytych dla każdej znormalizowanej zmiennej, takich jak maksimum i minimum, a następnie wykonanie tej samej transformacji, co wcześniej w zbiorze danych otworu, ale tylko w tym celu pojedyncza instancja.
źródło