Jak rozpocząć budowanie modelu regresji, gdy najsilniej powiązanym predyktorem jest binarny

Mam zestaw danych zawierający 365 obserwacji trzech zmiennych mianowicie pm, tempi rain. Teraz chcę sprawdzić zachowanie pmw odpowiedzi na zmiany w dwóch pozostałych zmiennych. Moje zmienne to:

pm10 = Odpowiedź (zależna)
temp = predyktor (niezależny)
rain = predyktor (niezależny)

Oto macierz korelacji dla moich danych:

> cor(air.pollution)
               pm        temp       rainy
pm     1.00000000 -0.03745229 -0.15264258
temp  -0.03745229  1.00000000  0.04406743
rainy -0.15264258  0.04406743  1.00000000

Problem polega na tym, że kiedy studiowałem konstrukcję modeli regresji, napisano, że metodą addytywną należy zacząć od zmiennej, która jest najbardziej związana ze zmienną odpowiedzi. W moim zestawie danych rainjest wysoce skorelowany z pm(w porównaniu do temp), ale jednocześnie jest to zmienna fikcyjna (deszcz = 1, brak deszczu = 0), więc mam teraz wskazówkę, od czego zacząć. Mam załączeniu dwa obrazy z pytaniem: Pierwszym z nich jest rozrzutu danych, a drugi obraz jest rozrzutu pm10vs. rain, ja też jestem w stanie zinterpretować wykres punktowy pm10vs. rain. Czy ktoś może mi pomóc, jak zacząć?

correlation multiple-regression multicollinearity regression-strategies Syed Asif Ali Shah
źródło

To jest całkowicie wykonalne pytanie, IMO, nawet jeśli wynika z nieporozumienia.

gung - Przywróć Monikę

y_{i}

$y_i$

x_{i 1}, x_{i 2}, \dots, x_{i p}

$x_{i1}, x_{i2},\ldots,x_{ip}$

| r_{j k} | > 0.8

$|r_{jk}|>0.8$

Odpowiedzi:

Wiele osób uważa, że powinieneś zastosować strategię, np. Zaczynając od najbardziej skojarzonej zmiennej, a następnie dodając kolejne zmienne, dopóki jedna nie będzie znacząca. Jednak nie ma logiki, która wymusza takie podejście. Co więcej, jest to rodzaj „chciwej” strategii wyboru / wyszukiwania zmiennych (por. Moja odpowiedź tutaj: Algorytmy automatycznego wyboru modelu ). Nie musisz tego robić i naprawdę nie powinieneś. Jeśli chcesz dowiedzieć się relacji między pmi temparain, wystarczy dopasować model regresji wielokrotnej ze wszystkimi trzema zmiennymi. Nadal będziesz musiał ocenić model, aby ustalić, czy jest on uzasadniony i czy założenia są spełnione, ale to wszystko. Jeśli chcesz przetestować hipotezę a priori, możesz to zrobić za pomocą modelu. Jeśli chcesz ocenić dokładność predykcyjną modelu poza próbą, możesz to zrobić za pomocą weryfikacji krzyżowej.

Nie musisz też naprawdę martwić się o wielokoliniowość. Korelacja pomiędzy tempi rainjest wymieniona jak 0.044w macierzy korelacji. Jest to bardzo niska korelacja i nie powinna powodować żadnych problemów.

gung - Przywróć Monikę
źródło

dziękuję bardzo za miłe sugestie. jestem nowy na tej stronie, nie wiem, jak z niej korzystać, czy możesz podać dodatkowe sugestie lub studiować materiały

Syed Asif Ali Shah,

@SyedAsifAliShah, poza tym, że angielski nie wydaje się twoim językiem ojczystym, nie widzę żadnych problemów w / sposobie korzystania z witryny. Jeśli chodzi o materiały do nauki, możesz spojrzeć na to lub tamto lub po prostu przeglądać nasze wątki za pomocą tagu referencji .

gung - Przywróć Monikę

czy powinienem wypróbować model liniowy lub GLM dla moich danych?

Syed Asif Ali Shah

@SyedAsifAliShah, prawdopodobnie model liniowy jest odpowiedni dla twoich danych.

gung - Przywróć Monikę

stary, potrzebuję twojej pomocy

Syed Asif Ali Shah,

Chociaż nie odnosi się to bezpośrednio do już zgromadzonego zestawu danych, kolejną rzeczą, którą możesz wypróbować następnym razem, gdy zbierasz takie dane, jest uniknięcie zapisywania „deszczu” jako pliku binarnego. Twoje dane byłyby prawdopodobnie bardziej pouczające, gdyby zamiast tego zmierzyć szybkość opadów (cm / godzinę), co dałoby ci zmienną rozkładaną w sposób ciągły (do twojej precyzji pomiaru) od 0 ... max_rainfall.

Pozwoliłoby to skorelować nie tylko „czy pada deszcz” z innymi zmiennymi, ale także „ile pada deszcz”.

JKreft
źródło

cześć stary, zrobiłem to samo zgodnie z twoją sugestią, zebrałem pełne dane o deszczu i skonstruowałem model

Syed Asif Ali Shah

czy mogę poprosić o e-mail? Chcę tylko zadać kilka pytań

Syed Asif Ali Shah,

Jeśli masz dodatkowe pytania dotyczące konfigurowania modelu, być może dobrym rozwiązaniem będzie nowe pytanie StackExchange. W ten sposób możesz uzyskać opinie od większej liczby osób, z których wielu jest bardziej ekspertami niż ja.

JKreft

stats.stackexchange.com/questions/255959/…

Syed Asif Ali Shah