Mam zestaw danych zawierający 365 obserwacji trzech zmiennych mianowicie pm
, temp
i rain
. Teraz chcę sprawdzić zachowanie pm
w odpowiedzi na zmiany w dwóch pozostałych zmiennych. Moje zmienne to:
pm10
= Odpowiedź (zależna)temp
= predyktor (niezależny)rain
= predyktor (niezależny)
Oto macierz korelacji dla moich danych:
> cor(air.pollution)
pm temp rainy
pm 1.00000000 -0.03745229 -0.15264258
temp -0.03745229 1.00000000 0.04406743
rainy -0.15264258 0.04406743 1.00000000
Problem polega na tym, że kiedy studiowałem konstrukcję modeli regresji, napisano, że metodą addytywną należy zacząć od zmiennej, która jest najbardziej związana ze zmienną odpowiedzi. W moim zestawie danych rain
jest wysoce skorelowany z pm
(w porównaniu do temp
), ale jednocześnie jest to zmienna fikcyjna (deszcz = 1, brak deszczu = 0), więc mam teraz wskazówkę, od czego zacząć. Mam załączeniu dwa obrazy z pytaniem: Pierwszym z nich jest rozrzutu danych, a drugi obraz jest rozrzutu pm10
vs. rain
, ja też jestem w stanie zinterpretować wykres punktowy pm10
vs. rain
. Czy ktoś może mi pomóc, jak zacząć?
źródło
Odpowiedzi:
Wiele osób uważa, że powinieneś zastosować strategię, np. Zaczynając od najbardziej skojarzonej zmiennej, a następnie dodając kolejne zmienne, dopóki jedna nie będzie znacząca. Jednak nie ma logiki, która wymusza takie podejście. Co więcej, jest to rodzaj „chciwej” strategii wyboru / wyszukiwania zmiennych (por. Moja odpowiedź tutaj: Algorytmy automatycznego wyboru modelu ). Nie musisz tego robić i naprawdę nie powinieneś. Jeśli chcesz dowiedzieć się relacji między
pm
itemp
arain
, wystarczy dopasować model regresji wielokrotnej ze wszystkimi trzema zmiennymi. Nadal będziesz musiał ocenić model, aby ustalić, czy jest on uzasadniony i czy założenia są spełnione, ale to wszystko. Jeśli chcesz przetestować hipotezę a priori, możesz to zrobić za pomocą modelu. Jeśli chcesz ocenić dokładność predykcyjną modelu poza próbą, możesz to zrobić za pomocą weryfikacji krzyżowej.Nie musisz też naprawdę martwić się o wielokoliniowość. Korelacja pomiędzy
temp
irain
jest wymieniona jak0.044
w macierzy korelacji. Jest to bardzo niska korelacja i nie powinna powodować żadnych problemów.źródło
Chociaż nie odnosi się to bezpośrednio do już zgromadzonego zestawu danych, kolejną rzeczą, którą możesz wypróbować następnym razem, gdy zbierasz takie dane, jest uniknięcie zapisywania „deszczu” jako pliku binarnego. Twoje dane byłyby prawdopodobnie bardziej pouczające, gdyby zamiast tego zmierzyć szybkość opadów (cm / godzinę), co dałoby ci zmienną rozkładaną w sposób ciągły (do twojej precyzji pomiaru) od 0 ... max_rainfall.
Pozwoliłoby to skorelować nie tylko „czy pada deszcz” z innymi zmiennymi, ale także „ile pada deszcz”.
źródło