Jak rozpocząć budowanie modelu regresji, gdy najsilniej powiązanym predyktorem jest binarny

11

Mam zestaw danych zawierający 365 obserwacji trzech zmiennych mianowicie pm, tempi rain. Teraz chcę sprawdzić zachowanie pmw odpowiedzi na zmiany w dwóch pozostałych zmiennych. Moje zmienne to:

  • pm10 = Odpowiedź (zależna)
  • temp = predyktor (niezależny)
  • rain = predyktor (niezależny)

Oto macierz korelacji dla moich danych:

> cor(air.pollution)
               pm        temp       rainy
pm     1.00000000 -0.03745229 -0.15264258
temp  -0.03745229  1.00000000  0.04406743
rainy -0.15264258  0.04406743  1.00000000

Problem polega na tym, że kiedy studiowałem konstrukcję modeli regresji, napisano, że metodą addytywną należy zacząć od zmiennej, która jest najbardziej związana ze zmienną odpowiedzi. W moim zestawie danych rainjest wysoce skorelowany z pm(w porównaniu do temp), ale jednocześnie jest to zmienna fikcyjna (deszcz = 1, brak deszczu = 0), więc mam teraz wskazówkę, od czego zacząć. Mam załączeniu dwa obrazy z pytaniem: Pierwszym z nich jest rozrzutu danych, a drugi obraz jest rozrzutu pm10vs. rain, ja też jestem w stanie zinterpretować wykres punktowy pm10vs. rain. Czy ktoś może mi pomóc, jak zacząć?

to jest wykres rozrzutu moich danych

wykres punktowy PM10 vs deszcz

Syed Asif Ali Shah
źródło
3
To jest całkowicie wykonalne pytanie, IMO, nawet jeśli wynika z nieporozumienia.
gung - Przywróć Monikę
yixi1,xi2,,xip|rjk|>0.8

Odpowiedzi:

17

Wiele osób uważa, że ​​powinieneś zastosować strategię, np. Zaczynając od najbardziej skojarzonej zmiennej, a następnie dodając kolejne zmienne, dopóki jedna nie będzie znacząca. Jednak nie ma logiki, która wymusza takie podejście. Co więcej, jest to rodzaj „chciwej” strategii wyboru / wyszukiwania zmiennych (por. Moja odpowiedź tutaj: Algorytmy automatycznego wyboru modelu ). Nie musisz tego robić i naprawdę nie powinieneś. Jeśli chcesz dowiedzieć się relacji między pmi temparain, wystarczy dopasować model regresji wielokrotnej ze wszystkimi trzema zmiennymi. Nadal będziesz musiał ocenić model, aby ustalić, czy jest on uzasadniony i czy założenia są spełnione, ale to wszystko. Jeśli chcesz przetestować hipotezę a priori, możesz to zrobić za pomocą modelu. Jeśli chcesz ocenić dokładność predykcyjną modelu poza próbą, możesz to zrobić za pomocą weryfikacji krzyżowej.

Nie musisz też naprawdę martwić się o wielokoliniowość. Korelacja pomiędzy tempi rainjest wymieniona jak 0.044w macierzy korelacji. Jest to bardzo niska korelacja i nie powinna powodować żadnych problemów.

gung - Przywróć Monikę
źródło
1
dziękuję bardzo za miłe sugestie. jestem nowy na tej stronie, nie wiem, jak z niej korzystać, czy możesz podać dodatkowe sugestie lub studiować materiały
Syed Asif Ali Shah,
1
@SyedAsifAliShah, poza tym, że angielski nie wydaje się twoim językiem ojczystym, nie widzę żadnych problemów w / sposobie korzystania z witryny. Jeśli chodzi o materiały do ​​nauki, możesz spojrzeć na to lub tamto lub po prostu przeglądać nasze wątki za pomocą tagu referencji .
gung - Przywróć Monikę
czy powinienem wypróbować model liniowy lub GLM dla moich danych?
Syed Asif Ali Shah
1
@SyedAsifAliShah, prawdopodobnie model liniowy jest odpowiedni dla twoich danych.
gung - Przywróć Monikę
stary, potrzebuję twojej pomocy
Syed Asif Ali Shah,
10

Chociaż nie odnosi się to bezpośrednio do już zgromadzonego zestawu danych, kolejną rzeczą, którą możesz wypróbować następnym razem, gdy zbierasz takie dane, jest uniknięcie zapisywania „deszczu” jako pliku binarnego. Twoje dane byłyby prawdopodobnie bardziej pouczające, gdyby zamiast tego zmierzyć szybkość opadów (cm / godzinę), co dałoby ci zmienną rozkładaną w sposób ciągły (do twojej precyzji pomiaru) od 0 ... max_rainfall.

Pozwoliłoby to skorelować nie tylko „czy pada deszcz” z innymi zmiennymi, ale także „ile pada deszcz”.

JKreft
źródło
cześć stary, zrobiłem to samo zgodnie z twoją sugestią, zebrałem pełne dane o deszczu i skonstruowałem model
Syed Asif Ali Shah
czy mogę poprosić o e-mail? Chcę tylko zadać kilka pytań
Syed Asif Ali Shah,
Jeśli masz dodatkowe pytania dotyczące konfigurowania modelu, być może dobrym rozwiązaniem będzie nowe pytanie StackExchange. W ten sposób możesz uzyskać opinie od większej liczby osób, z których wielu jest bardziej ekspertami niż ja.
JKreft