Czy mogę zastosować regresję wielokrotną, jeśli mam mieszane predyktory jakościowe i ciągłe?

12

Wygląda na to, że możesz użyć kodowania dla jednej zmiennej jakościowej, ale mam dwie zmienne jakościowe i jedną zmienną predykcyjną ciągłą. Czy mogę użyć do tego wielokrotnej regresji w SPSS, a jeśli tak, to w jaki sposób? dzięki!


źródło
Jestem pewien, że możesz , ale obawiam się, że nie mam pojęcia jak !
onestop
Sugerowałbym wpisanie czegoś takiego jak regresja w dokumentacji pomocy dostarczanej z SPSS. Powinny być chlebem i masłem dla każdego pakietu statystyk
prawdopodobieństwo jest
Nie wiem, co masz na myśli, kodując jedną zmienną kategorialną. Czy możesz podać przykład w składni? Czy twoja zmienna zależna jest ciągła czy kategoryczna?
Andy W

Odpowiedzi:

8
  1. Jeśli jest to pytanie składniowe SPSS, odpowiedzią jest po prostu umieszczenie odpowiednio zakodowanej zmiennej kategorialnej na liście zmiennych „zmiennych niezależnych” wraz ze zmienną ciągłą.
  2. W statystykach: czy twoja zmienna kategorialna jest binarna? Jeśli tak, musisz użyć fikcyjnego lub innego prawidłowego kodu kontrastu. Jeśli nie jest binarny, to czy twoja zmienna kategorialna jest porządkowa czy nominalna? Jeśli wartość jest nominalna, to znowu musisz użyć strategii kontrastującego kodu - w efekcie modelując wpływ każdego poziomu zmiennej na wynik lub zmienną „zależną”. Jeśli zmienna kategorialna jest porządkowa, najprawdopodobniejrozsądnym rozwiązaniem jest wprowadzenie go takim, jakim jest w modelu, tak jak w przypadku zmiennej predykcyjnej ciągłej (tj. „niezależnej”). W takim przypadku można założyć, że przyrosty między poziomami predyktora jakościowego („niezależnego”); tylko w rzadkich przypadkach będzie to pomyłka, ale kiedy już tak jest, powinieneś ponownie użyć kodu kontrastu i modelować wpływ każdego poziomu. To pytanie pojawia się dość często na tym forum - oto dobra analiza
  3. Sposób postępowania z brakującymi danymi jest moim zdaniem zupełnie odrębną sprawą. Rozumiem, że usuwanie parami nie jest uważane za prawidłowe podejście do regresji wielowymiarowej. Listwise jest dość powszechny, ale może również wpływać na wyniki i na pewno szkoda. Wielokrotne przypisywanie jest sprawą piękna.
dmk38
źródło
Mam pytanie do DMK38. Powyżej piszesz, że można dodawać zmienną kategorialną do modelu takim, jaki jest, gdy jest on porządkowy. Z przyjemnością to czytam ;-) Czy masz dobre źródło, które również o tym wspomina, abym mógł dodać to do mojej pracy? Bardzo dziękuję za odpowiedź! Lilian
Lilian Jans-Beken
1
@ LilianJans-Beken: Zobacz Ciągła zmienna zależna ze zmienną niezależną porządkową i regresją logistyczną oraz zmiennymi niezależnymi porządkowymi . Możesz nie chcieć wybierać bardziej skomplikowanych metod, ale pamiętaj, że nawet jeśli z przyjemnością uznajesz predyktor za skalowany w przedziale, ograniczanie go do liniowego związku z odpowiedzią nie jest konieczne. I nie czuj się zobowiązany do przyjmowania równych odstępów między sąsiadującymi poziomami, jeśli coś innego wydaje się bardziej sensowne.
Scortchi - Przywróć Monikę
1
@ LilianJans-Beken: Także Jak obsługiwać zmienną kategorialną porządkową jako zmienną niezależną i Logit z niezależnymi zmiennymi porządkowymi . Witaj w Cross Validated!
Scortchi - Przywróć Monikę
2

Z pewnością możesz, postępując zgodnie z tą samą metodą, której użyłbyś dla pierwszego predyktora jakościowego. Twórz zmienne obojętne, tak jak dla pierwszej takiej zmiennej. Ale często łatwiej jest użyć polecenia SPSS Unianova. Możesz to sprawdzić w dowolnym Przewodniku składni wydrukowanym lub w formacie pdf lub możesz uzyskać do niego dostęp poprzez Analizuj ... Ogólny model liniowy ... Univariate.

Pomimo tego, że jest nieco bardziej skomplikowane, polecenie Regresja ma wiele zalet w stosunku do Unianova. Najważniejsze jest to, że możesz wybrać „brakującą parę” (nie musisz przegrać sprawy tylko dlatego, że brakuje wartości jednego lub dwóch predyktorów). Możesz także uzyskać wiele cennych informacji diagnostycznych, takich jak wykresy częściowe i statystyki wpływu.

rolando2
źródło
1
@ rolando - dobra odpowiedź. To powiedziawszy, brakujące podejścia parami mylą porównanie efektów, ponieważ opierają się one na różnej liczbie obserwacji. Może być coś, o czym należy pamiętać.
richiemorrisroe
Myślę, że twoje nieco zagubione, parujące brakujące znaczenie ma znaczenie tylko wtedy, gdy używasz całkowicie oddzielnych modeli (na przykład stosując procedurę wyboru modelu krok po kroku). Jeśli wprowadzasz wszystkie zmienne do modelu, nadal będzie brakować wartości z listy.
Andy W
@ richiemorrisroe - zgadzam się, warto o tym pamiętać. @ Andy W - Właśnie potwierdziłem w SPSS, że użycie tylko wymuszonego wpisu, brak parowania i brak listowania dają różne wyniki pod każdym względem, w tym różne df.
rolando2
Nadal uważam, że jesteś zdezorientowany, w jaki sposób SPSS może zwracać różne zestawy wyników, deklarując brakujące pary, chyba że tworzy wartości dla brakujących danych? Oto przykład wykorzystujący dane symulowane, które opublikowałem w pliku tekstowym, dl.dropbox.com/u/3385251/SPSS_missing_Listwise_vs_Pairwise.txt . Obecnie głosowałem za odpowiedzią, ponieważ cała ta rozmowa o tym, jak polecenie regresji radzi sobie z brakującymi danymi, jest myląca, nie ma nic wspólnego z pierwotnym pytaniem OP i może wprowadzać w błąd.
Andy W
1

Prostym sposobem na przekształcenie zmiennych kategorialnych w zestaw zmiennych zastępczych do stosowania w modelach w SPSS jest użycie składni do repeat. Jest to najprostszy w użyciu, jeśli zmienne jakościowe są uporządkowane liczbowo.

*making vector of dummy variables.
vector dummy(3,F1.0).
*looping through dummy variables using do repeat, in this example category would be the categorical variable to recode. 
do repeat dummy = dummy1 to dummy3 /#i = 1 to 3.
compute dummy = 0.
if category = #i dummy = 1.
end repeat.
execute. 

W przeciwnym razie możesz po prostu uruchomić zestaw instrukcji if, aby utworzyć zmienne fikcyjne. Moja bieżąca wersja (16) nie ma natywnej możliwości automatycznego określania zestawu zmiennych zastępczych w poleceniu regresji (tak jak w Stacie za pomocą polecenia xi ), ale nie byłbym zaskoczony, gdyby był dostępny w jakiejś nowszej wersji. Zwróć także uwagę na punkt # 2 dmk38, ten schemat kodowania zakłada kategorie nominalne. Jeśli twoja zmienna jest porządkowa, możesz zastosować większą dyskrecję.

Zgadzam się również z dmk38, a rozmowa o lepszej regresji ze względu na jej zdolność do określania brakujących danych w określony sposób jest zupełnie odrębną kwestią.

Andy W.
źródło