Mam zestaw danych, który zawiera zarówno zmienne jakościowe, jak i zmienne ciągłe. Poradzono mi, aby przekształcić zmienne kategorialne jako zmienne binarne dla każdego poziomu (tj. A_level1: {0,1}, A_level2: {0,1}) - Myślę, że niektórzy nazywają to „zmiennymi obojętnymi”.
Mając to na uwadze, czy wprowadzanie w błąd i wyśrodkowanie całego zestawu danych przy użyciu nowych zmiennych byłoby mylące? Wygląda na to, że straciłbym znaczenie zmiennych „on / off”.
Jeśli jest to mylące, czy to oznacza, że powinienem wyśrodkować i skalować zmienne ciągłe osobno, a następnie ponownie dodać je do mojego zbioru danych?
TIA
categorical-data
data-transformation
centering
użytkownik2300643
źródło
źródło
Odpowiedzi:
Podczas konstruowania zmiennych fikcyjnych do zastosowania w analizach regresji, każda kategoria w zmiennej kategorialnej, z wyjątkiem jednej, powinna otrzymać zmienną binarną. Powinieneś więc mieć np. A_level2, A_level3 itp. Jedna z kategorii nie powinna mieć zmiennej binarnej, a ta kategoria będzie służyć jako kategoria referencyjna. Jeśli nie pominiesz żadnej z kategorii, analizy regresji nie będą działać poprawnie.
Jeśli używasz SPSS lub R, nie sądzę, że skalowanie i centrowanie całego zestawu danych będzie ogólnie stanowić problem, ponieważ te pakiety oprogramowania często interpretują zmienne tylko z dwoma poziomami jako czynnikami, ale może to zależeć od konkretnych zastosowanych metod statystycznych . W każdym razie nie ma sensu skalować i centrować zmiennych binarnych (lub kategorialnych), więc powinieneś wyśrodkowywać i skalować zmienne ciągłe tylko wtedy, gdy musisz to zrobić.
źródło
Jeśli używasz R i skalujesz zmienne fikcyjne lub zmienne o wartości 0 lub 1 tylko w skali od 0 do 1, wtedy nie będzie żadnych zmian w wartościach tych zmiennych, pozostałe kolumny zostaną przeskalowane.
źródło
Celem średniego centrowania w regresji jest ułatwienie interpretacji przechwytywania. To znaczy, czy masz na myśli wyśrodkowanie wszystkich zmiennych w modelu regresji, a następnie punkt przecięcia (nazywany stałą w danych wyjściowych SPSS) jest równy ogólnej wielkiej średniej dla zmiennej wyniku. Co może być wygodne przy interpretacji ostatecznego modelu.
Jeśli chodzi o zmienne manekiny centrujące, właśnie rozmawiałem z moim profesorem o średnich zmiennych centrujących manekin w modelu regresyjnym (w moim przypadku wielopoziomowym modelu z losowym blokiem z 3 poziomami), a mój wynos był taki, że centrowanie zmienne fikcyjne nie zmieniają interpretacji współczynników regresji (z wyjątkiem tego, że rozwiązanie jest całkowicie znormalizowane). Zwykle w regresji nie jest konieczne interpretowanie rzeczywistej wartości średniej na środku - tylko współczynniki. I to w zasadzie się nie zmienia - w większości. Powiedziała, że zmienia się nieznacznie, ponieważ jest znormalizowany, co dla manekinów nie jest tak intuicyjne w zrozumieniu.
Zastrzeżenie: Takie było moje zrozumienie, kiedy opuściłem gabinet mojego profesora. Oczywiście mogłem się mylić.
źródło