Zmienne są często korygowane (np. Standaryzowane) przed wykonaniem modelu - kiedy jest to dobry pomysł, a kiedy zły?

56

W jakich okolicznościach chciałbyś skalować lub standaryzować zmienną przed dopasowaniem modelu? A jakie są zalety / wady skalowania zmiennej?

Andrzej
źródło
Bardzo podobne pytanie tutaj: stats.stackexchange.com/q/7112/3748 jest jeszcze coś, czego szukasz?
Michael Bishop,
Tak - chciałbym wiedzieć ogólnie o modelach, a nie tylko o modelu liniowym
Andrew
1
Istnieje wiele możliwych modeli i możliwych zastosowań modeli. Jeśli możesz sprecyzować swoje pytania i zmniejszyć nakładanie się na inne pytania, to lepiej.
Michael Bishop,
Oprócz powyższego linku, interesujące będzie pytanie: kiedy powinnaś wyśrodkować swoje dane, kiedy powinnaś ustandaryzować .
gung - Przywróć Monikę

Odpowiedzi:

37

Standaryzacja polega na wadze różnych zmiennych dla modelu. Jeśli wykonasz standaryzację „tylko” ze względu na stabilność numeryczną, mogą wystąpić transformacje, które dają bardzo podobne właściwości liczbowe, ale inne znaczenie fizyczne, które może być znacznie bardziej odpowiednie do interpretacji. To samo dotyczy centrowania, które zwykle stanowi część normalizacji.

Sytuacje, w których prawdopodobnie chcesz standaryzować:

  • zmienne są różnymi wielkościami fizycznymi
  • a wartości liczbowe mieszczą się w bardzo różnych skalach wielkości
  • i nie ma „zewnętrznej” wiedzy, że zmienne o dużej zmienności (liczbowej) należy uznać za ważniejsze.

Sytuacje, w których możesz nie chcieć standaryzować:

  • jeśli zmienne są tej samej wielkości fizycznej i mają (z grubsza) tej samej wielkości, np
    • względne stężenia różnych gatunków chemicznych
    • absorbancje przy różnych długościach fal
    • intensywność emisji (inaczej te same warunki pomiaru) przy różnych długościach fal
  • zdecydowanie nie chcesz standaryzować zmiennych, które nie zmieniają się między próbkami (kanały podstawowe) - po prostu wysadziłeś szum pomiarowy (zamiast tego możesz wykluczyć je z modelu)
  • jeśli masz takie fizycznie powiązane zmienne, twój szum pomiarowy może być mniej więcej taki sam dla wszystkich zmiennych, ale intensywność sygnału różni się znacznie bardziej. Tzn. Zmienne o niskich wartościach mają wyższy poziom hałasu względnego. Standaryzacja zniszczyłaby hałas. Innymi słowy, być może będziesz musiał zdecydować, czy chcesz ustandaryzować hałas względny czy absolutny.
  • Mogą istnieć znaczące fizycznie wartości, które można wykorzystać do powiązania mierzonej wartości, np. Zamiast transmitowanej intensywności użyć procentu transmitowanej intensywności (transmitancja T).

Możesz zrobić coś „pomiędzy” i przekształcić zmienne lub wybrać jednostkę, aby nowe zmienne nadal miały fizyczne znaczenie, ale zmiana wartości liczbowej nie jest tak różna, np.

  • jeśli pracujesz z myszami, użyj masy ciała gi długości w cm (oczekiwany zakres zmian około 5 dla obu) zamiast jednostek podstawowych kg im (oczekiwany zakres zmian 0,005 kg i 0,05 m - jeden rząd wielkości inny).
  • A=log10T

Podobne do centrowania:

  • Mogą istnieć (fizycznie / chemicznie / biologicznie / ...) znaczące wartości wyjściowe (np. Kontrole, ślepe itp.)
  • Czy środek ma rzeczywiście znaczenie? (Przeciętny człowiek ma jeden jajnik i jedno jądro)
cbeleites obsługuje Monikę
źródło
+1 i zaakceptowane ze względu na pomocną listę, kiedy i kiedy nie jest zbyt standaryzowany, dzięki
Andrew
6
+1 dla „Przeciętny człowiek ma jeden jajnik i jedno jądro” (i także dla reszty odpowiedzi ;-).
gung - Przywróć Monikę
1
@cbeleites czy jest szansa, że ​​podasz link do zasobu wyjaśniającego kanały podstawowe w kontekście, którego użyłeś w swojej odpowiedzi? Nie słyszałem wcześniej tego terminu i otrzymuję wyniki wyszukiwania, które nie są pomocne w zrozumieniu twojego użycia tego terminu tutaj. Dzięki!
mahonya
1
1
9

Przed standaryzacją zawsze zadaję sobie pytanie: „Jak zinterpretuję wynik?” Jeśli istnieje sposób analizy danych bez transformacji, może to być preferowane wyłącznie z punktu widzenia interpretacji.

jebyrnes
źródło
7

Ogólnie nie polecam skalowania ani standaryzacji, chyba że jest to absolutnie konieczne. Zaletą lub atrakcyjnością takiego procesu jest to, że gdy zmienna objaśniająca ma zupełnie inny wymiar fizyczny i wielkość niż zmienna odpowiedzi, skalowanie przez podział przez odchylenie standardowe może pomóc pod względem stabilności numerycznej i umożliwia porównanie efektów na wielu wyjaśniające zmienne. Przy najbardziej powszechnej standaryzacji efekt zmienny jest wielkością zmiany zmiennej odpowiedzi, gdy zmienna objaśniająca wzrasta o jedno odchylenie standardowe; wskazuje również, że znaczenie efektu zmiennego (wielkość zmiany zmiennej odpowiedzi, gdy zmienna objaśniająca wzrośnie o jedną jednostkę) zostałaby utracona, chociaż wartość statystyczna dla zmiennej objaśniającej pozostaje niezmieniona. Jednak, gdy rozważa się interakcję w modelu, skalowanie może być bardzo problematyczne nawet w przypadku testów statystycznych z powodu komplikacji obejmującej stochastyczną korektę skalowania w obliczaniu standardowego błędu efektu interakcji (Preacher, 2003). Z tego powodu skalowanie według odchylenia standardowego (lub standaryzacji / normalizacji) zasadniczo nie jest zalecane, szczególnie w przypadku interakcji.

Preacher, KJ, Curran, PJ i Bauer, DJ, 2006. Narzędzia obliczeniowe do sondowania efektów interakcji w wielu regresji liniowej, modelowaniu wielopoziomowym i analizie krzywej utajonej. Journal of Educational and Behavioral Statistics, 31 (4), 437-448.

bluepole
źródło
4
Kwestionuję twoje twierdzenie, że standaryzacja predyktorów nie jest „na ogół zalecana, szczególnie gdy chodzi o interakcje”. Ani Gelman i Hill, ani Raudenbush i Bryk nie wspominają o tej trosce w swoich tekstach. Ale kiedy będę miał okazję, z zainteresowaniem przyjrzę się referencjom, o których wspominasz.
Michael Bishop,
Jeśli zastosujemy std wszechświata kalibracyjnego jako zmienną skalującą, wówczas skalowanie nie będzie stochastyczne.
Adam
Czy ktoś może potwierdzić, czy skalowanie jest szkodliwe w przypadku warunków interakcji? Wydaje się, że nie zostało to rozwiązane w powyższej dyskusji.
Talik3233