Kiedy i jak stosować znormalizowane zmienne objaśniające w regresji liniowej

37

Mam 2 proste pytania dotyczące regresji liniowej:

  1. Kiedy zaleca się ujednolicenie zmiennych objaśniających?
  2. Po przeprowadzeniu oszacowania ze znormalizowanymi wartościami, jak można przewidzieć nowe wartości (jak należy znormalizować nowe wartości)?

Niektóre referencje byłyby pomocne.

zwiastun
źródło
3
Jeśli twoje oprogramowanie jest dobrze napisane, automatycznie standaryzuje się wewnętrznie, aby uniknąć problemów z dokładnością numeryczną. Nie powinieneś robić nic specjalnego.
whuber
1
Zwróć uwagę, że następujący wątek jest powiązany i będzie interesujący: Kiedy należy wyśrodkować dane i kiedy należy przeprowadzić standaryzację? .
gung - Przywróć Monikę

Odpowiedzi:

26

Chociaż terminologia jest spornym tematem, wolę nazywać zmienne „objaśniające”, zmienne „predykcyjne”.

Kiedy ujednolicić predyktory:

  • Wiele programów do przeprowadzania wielokrotnej regresji liniowej zapewni znormalizowane współczynniki, które są równoważne niestandardowym współczynnikom, w których ręcznie standaryzujesz predyktory i zmienną odpowiedzi (oczywiście brzmi to tak, jakbyś mówił tylko o standaryzujących predyktorach).
  • Moim zdaniem standaryzacja jest przydatnym narzędziem do nadawania równań regresji bardziej znaczącym. Jest to szczególnie prawdziwe w przypadkach, gdy metryka zmiennej nie ma znaczenia dla osoby interpretującej równanie regresji (np. Skala psychologiczna na dowolnej metryki). Można go również wykorzystać w celu ułatwienia porównywalności względnej ważności zmiennych predykcyjnych (chociaż istnieją inne bardziej wyrafinowane podejścia do oceny względnej ważności; zobacz mój post do dyskusji ). W przypadkach, gdy metryka ma znaczenie dla osoby interpretującej równanie regresji, niestandardowe współczynniki są często bardziej pouczające.
  • Myślę również, że poleganie na standardowych zmiennych może odwrócić uwagę od faktu, że nie zastanawialiśmy się, jak uczynić metrykę zmiennej bardziej znaczącą dla czytelnika.

  • Andrew Gelman ma sporo do powiedzenia na ten temat. Zobacz na przykład jego stronę dotyczącą standaryzacji, aw szczególności Gelman (2008, Stats Med, DARMOWY PDF) .

Prognozy oparte na standaryzacji:

  • Nie użyłbym standardowych współczynników regresji do prognozowania.
  • Zawsze możesz przekonwertować znormalizowane współczynniki na niestandardowe współczynniki, jeśli znasz średnią i odchylenie standardowe zmiennej predykcyjnej w oryginalnej próbce.
Jeromy Anglim
źródło
3
+1, ale dlaczego nie użyłbyś niestandardowych współczynników regresji do prognozowania?
onestop
1
(+1) Jeśli chodzi o ocenę zmiennego znaczenia, myślę, że pakiet relaimpo R ma dobrą robotę (ale zobacz Pierwsze kroki w nowoczesnym podejściu do regresji ). Był też miły artykuł Davida V. Budescu na temat analizy dominacji (dostępny bezpłatnie na żądanie).
chl
@onestep oops. literówka. Teraz się zmieniło.
Jeromy Anglim
1
@Jeromy, czy mógłbyś wyjaśnić, dlaczego nie użyłbyś standardowych współczynników regresji do prognozowania?
Michael Bishop,
3
@MichaelBishop Myślę o kontekstach, w których bierzesz swój model regresji i stosujesz go do przewidywania na podstawie danych przykładowych. Ogólnie rzecz biorąc, potrzebujesz niestandardowych prognoz. Również średnie i odchylenia standardowe mogą się zmieniać między próbkami; stosowanie niestandardowych predyktorów powinno zatem dać bardziej znaczące wyniki.
Jeromy Anglim,
-4

Pozwól, że odpowiem krótkim ciastem, które może pokrywać się z doskonałą odpowiedzią napisaną wcześniej.

  1. Zawsze standaryzuj, co pozwala lepiej interpretować regresję, a zwłaszcza jej współczynniki.

  2. W przypadku nowych danych, które nie są standaryzowane, zalecam przechowywanie wartości użytych dla każdej znormalizowanej zmiennej, takich jak maksimum i minimum, a następnie wykonanie tej samej transformacji, co wcześniej w zbiorze danych otworu, ale tylko w tym celu pojedyncza instancja.

mariana bardziej miękka
źródło