Kiedy i jak stosować znormalizowane zmienne objaśniające w regresji liniowej

Mam 2 proste pytania dotyczące regresji liniowej:

Kiedy zaleca się ujednolicenie zmiennych objaśniających?
Po przeprowadzeniu oszacowania ze znormalizowanymi wartościami, jak można przewidzieć nowe wartości (jak należy znormalizować nowe wartości)?

Niektóre referencje byłyby pomocne.

regression predictive-models references standardization predictor zwiastun
źródło

Jeśli twoje oprogramowanie jest dobrze napisane, automatycznie standaryzuje się wewnętrznie, aby uniknąć problemów z dokładnością numeryczną. Nie powinieneś robić nic specjalnego.

whuber

Zwróć uwagę, że następujący wątek jest powiązany i będzie interesujący: Kiedy należy wyśrodkować dane i kiedy należy przeprowadzić standaryzację? .

gung - Przywróć Monikę

Zwróć uwagę, że następujące wątki są powiązane i będą interesujące: Kiedy należy wyśrodkować dane i kiedy należy przeprowadzić standaryzację? , & Zmienne są często dostosowywane (np. Standaryzowane) przed wykonaniem modelu - kiedy jest to dobry pomysł, a kiedy zły? .

gung - Przywróć Monikę

Odpowiedzi:

Chociaż terminologia jest spornym tematem, wolę nazywać zmienne „objaśniające”, zmienne „predykcyjne”.

Kiedy ujednolicić predyktory:

Wiele programów do przeprowadzania wielokrotnej regresji liniowej zapewni znormalizowane współczynniki, które są równoważne niestandardowym współczynnikom, w których ręcznie standaryzujesz predyktory i zmienną odpowiedzi (oczywiście brzmi to tak, jakbyś mówił tylko o standaryzujących predyktorach).
Moim zdaniem standaryzacja jest przydatnym narzędziem do nadawania równań regresji bardziej znaczącym. Jest to szczególnie prawdziwe w przypadkach, gdy metryka zmiennej nie ma znaczenia dla osoby interpretującej równanie regresji (np. Skala psychologiczna na dowolnej metryki). Można go również wykorzystać w celu ułatwienia porównywalności względnej ważności zmiennych predykcyjnych (chociaż istnieją inne bardziej wyrafinowane podejścia do oceny względnej ważności; zobacz mój post do dyskusji ). W przypadkach, gdy metryka ma znaczenie dla osoby interpretującej równanie regresji, niestandardowe współczynniki są często bardziej pouczające.
Myślę również, że poleganie na standardowych zmiennych może odwrócić uwagę od faktu, że nie zastanawialiśmy się, jak uczynić metrykę zmiennej bardziej znaczącą dla czytelnika.
Andrew Gelman ma sporo do powiedzenia na ten temat. Zobacz na przykład jego stronę dotyczącą standaryzacji, aw szczególności Gelman (2008, Stats Med, DARMOWY PDF) .

Prognozy oparte na standaryzacji:

Nie użyłbym standardowych współczynników regresji do prognozowania.
Zawsze możesz przekonwertować znormalizowane współczynniki na niestandardowe współczynniki, jeśli znasz średnią i odchylenie standardowe zmiennej predykcyjnej w oryginalnej próbce.

Jeromy Anglim
źródło

+1, ale dlaczego nie użyłbyś niestandardowych współczynników regresji do prognozowania?

onestop

(+1) Jeśli chodzi o ocenę zmiennego znaczenia, myślę, że pakiet relaimpo R ma dobrą robotę (ale zobacz Pierwsze kroki w nowoczesnym podejściu do regresji ). Był też miły artykuł Davida V. Budescu na temat analizy dominacji (dostępny bezpłatnie na żądanie).

chl

@onestep oops. literówka. Teraz się zmieniło.

Jeromy Anglim

@Jeromy, czy mógłbyś wyjaśnić, dlaczego nie użyłbyś standardowych współczynników regresji do prognozowania?

Michael Bishop,

@MichaelBishop Myślę o kontekstach, w których bierzesz swój model regresji i stosujesz go do przewidywania na podstawie danych przykładowych. Ogólnie rzecz biorąc, potrzebujesz niestandardowych prognoz. Również średnie i odchylenia standardowe mogą się zmieniać między próbkami; stosowanie niestandardowych predyktorów powinno zatem dać bardziej znaczące wyniki.

Jeromy Anglim,

-4

Pozwól, że odpowiem krótkim ciastem, które może pokrywać się z doskonałą odpowiedzią napisaną wcześniej.

Zawsze standaryzuj, co pozwala lepiej interpretować regresję, a zwłaszcza jej współczynniki.
W przypadku nowych danych, które nie są standaryzowane, zalecam przechowywanie wartości użytych dla każdej znormalizowanej zmiennej, takich jak maksimum i minimum, a następnie wykonanie tej samej transformacji, co wcześniej w zbiorze danych otworu, ale tylko w tym celu pojedyncza instancja.

mariana bardziej miękka
źródło