centrowanie i skalowanie zmiennych zastępczych

13

Mam zestaw danych, który zawiera zarówno zmienne jakościowe, jak i zmienne ciągłe. Poradzono mi, aby przekształcić zmienne kategorialne jako zmienne binarne dla każdego poziomu (tj. A_level1: {0,1}, A_level2: {0,1}) - Myślę, że niektórzy nazywają to „zmiennymi obojętnymi”.

Mając to na uwadze, czy wprowadzanie w błąd i wyśrodkowanie całego zestawu danych przy użyciu nowych zmiennych byłoby mylące? Wygląda na to, że straciłbym znaczenie zmiennych „on / off”.

Jeśli jest to mylące, czy to oznacza, że ​​powinienem wyśrodkować i skalować zmienne ciągłe osobno, a następnie ponownie dodać je do mojego zbioru danych?

TIA

użytkownik2300643
źródło
1
To, czy można wyśrodkować i / lub skalować zmienne fikcyjne, jest dopuszczalne lub uzasadnione, zależy od aplikacji, planowanej analizy i rozważań dotyczących konkretnego zadania. Więc nie ma jednej poprawnej odpowiedzi. W najbardziej ogólnym, zgrubnym sformułowaniu, często można to zrobić ze zmiennymi predykcyjnymi predykcyjnymi; często jest to zły pomysł, używając zmiennych manekina odpowiedzi lub metod wielowymiarowych, takich jak grupowanie lub analiza czynnikowa.
ttnphns

Odpowiedzi:

13

Podczas konstruowania zmiennych fikcyjnych do zastosowania w analizach regresji, każda kategoria w zmiennej kategorialnej, z wyjątkiem jednej, powinna otrzymać zmienną binarną. Powinieneś więc mieć np. A_level2, A_level3 itp. Jedna z kategorii nie powinna mieć zmiennej binarnej, a ta kategoria będzie służyć jako kategoria referencyjna. Jeśli nie pominiesz żadnej z kategorii, analizy regresji nie będą działać poprawnie.

Jeśli używasz SPSS lub R, nie sądzę, że skalowanie i centrowanie całego zestawu danych będzie ogólnie stanowić problem, ponieważ te pakiety oprogramowania często interpretują zmienne tylko z dwoma poziomami jako czynnikami, ale może to zależeć od konkretnych zastosowanych metod statystycznych . W każdym razie nie ma sensu skalować i centrować zmiennych binarnych (lub kategorialnych), więc powinieneś wyśrodkowywać i skalować zmienne ciągłe tylko wtedy, gdy musisz to zrobić.

JonB
źródło
2
Mam silne przeczucie, że jedyną częścią odpowiedzi, która naprawdę odpowiada na pytanie OP, jest to ostatnie zdanie - ta część jest niewyjaśniona. Mówisz, że nie skaluj ich, ale nie wyjaśniaj dlaczego. Tymczasem temat nie jest bardzo łatwy.
ttnphns
To tylko jeden sposób kodowania zmiennych jakościowych. Nie mam czasu na napisanie pełnej odpowiedzi, ale wyszukiwanie „kontrastów” może pomóc. Odpowiednia odpowiedź to stats.stackexchange.com/questions/60817/…
user20637
3

Jeśli używasz R i skalujesz zmienne fikcyjne lub zmienne o wartości 0 lub 1 tylko w skali od 0 do 1, wtedy nie będzie żadnych zmian w wartościach tych zmiennych, pozostałe kolumny zostaną przeskalowane.

maxs <- apply(data, 2, max) 
mins <- apply(data, 2, min)

data.scaled <- as.data.frame(scale(data, center = mins, scale = maxs - mins))
Shekhar Sahu
źródło
Ciekawa wskazówka. Dziękuję za podzielenie się. Minęło trochę czasu, odkąd poprosiłem, ale dobrze widzieć, że nadal mogę uczyć się z tych starych postów.
user2300643,
3

Celem średniego centrowania w regresji jest ułatwienie interpretacji przechwytywania. To znaczy, czy masz na myśli wyśrodkowanie wszystkich zmiennych w modelu regresji, a następnie punkt przecięcia (nazywany stałą w danych wyjściowych SPSS) jest równy ogólnej wielkiej średniej dla zmiennej wyniku. Co może być wygodne przy interpretacji ostatecznego modelu.

Jeśli chodzi o zmienne manekiny centrujące, właśnie rozmawiałem z moim profesorem o średnich zmiennych centrujących manekin w modelu regresyjnym (w moim przypadku wielopoziomowym modelu z losowym blokiem z 3 poziomami), a mój wynos był taki, że centrowanie zmienne fikcyjne nie zmieniają interpretacji współczynników regresji (z wyjątkiem tego, że rozwiązanie jest całkowicie znormalizowane). Zwykle w regresji nie jest konieczne interpretowanie rzeczywistej wartości średniej na środku - tylko współczynniki. I to w zasadzie się nie zmienia - w większości. Powiedziała, że ​​zmienia się nieznacznie, ponieważ jest znormalizowany, co dla manekinów nie jest tak intuicyjne w zrozumieniu.

Zastrzeżenie: Takie było moje zrozumienie, kiedy opuściłem gabinet mojego profesora. Oczywiście mogłem się mylić.

Katie
źródło