Regresja oparta na przykład na dniach tygodnia

11

Potrzebuję niewielkiej pomocy, aby iść w dobrym kierunku. Minęło dużo czasu, odkąd studiowałem statystyki i wydaje się, że żargon się zmienił.

Wyobraź sobie, że mam zestaw danych związanych z samochodem, takich jak

  • Czas podróży z miasta A do miasta B
  • Odległość od miasta A do miasta B.
  • Rozmiar silnika
  • Rozmiar buta kierowcy
  • Marka i model samochodu
  • Dzień tygodnia

Chcę przewidzieć czas podróży.

Wyobrażam sobie, że istnieje silna korelacja między czasem a odległością i prawdopodobnie słabsza do wielkości silnika (a żadna do wielkości buta). Prawdopodobnie narzędziem jest regresja wielokrotna / ANOVA. Ale jak uwzględnić dzień tygodnia, ponieważ kodowanie go jako niedziela = 1, poniedziałek = 2 itd. Wydaje się bardzo błędne?

Jak na przykład użyłem narzędzia regresji Excela, jak interpretować wyniki? Przypuszczalnie, jeśli R jest bliskie 1, jest to dobre (chociaż jeśli jest wiele elementów danych, wydaje się, że może być małe, ale wciąż znaczące). Ale niektóre źródła odnoszą się do kwadratu r, który wydaje się być SD, więc wartość zbliżona do zera jest dobra. Pokazuje także t Stat, wartość P, F i znaczenie F, niezależnie od tego, jakie mogą być. Czy ktoś może polecić dobre źródło odniesienia?

Ziemia
źródło
2
Dla przypomnienia, te pytania (dotyczące interpretacji wyników regresji) zostały zadane w innym wątku tutaj , ale pytanie było tak źle sformułowane, że nie zebrało żadnych dobrych odpowiedzi. Jest to fundamentalne pytanie, które zasługuje na „kanoniczną” odpowiedź, która jest elementarna, ale dokładna, jasna i dobrze wyjaśniona.
whuber

Odpowiedzi:

26

Potrzebny jest rzetelny przegląd metodologii regresji. Te pytania są jednak wystarczająco podstawowe (nie bierz tego w niewłaściwy sposób), aby nawet dobry przegląd podstawowych statystyk prawdopodobnie byłby dla Ciebie korzystny. Howell napisał bardzo popularny podręcznik, który zapewnia szerokie podstawy koncepcyjne, nie wymagając gęstej matematyki. Warto go przeczytać. Nie można tutaj opisać wszystkich tych materiałów. Jednak mogę spróbować zacząć od niektórych szczegółowych pytań.

Po pierwsze, dni tygodnia są uwzględniane za pomocą schematu kodowania. Najpopularniejsze jest kodowanie „kategorii referencyjnej” (zwykle nazywane kodowaniem pozorowanym). Wyobraźmy sobie, że dane są reprezentowane w macierzy, z przypadkami w wierszach, a zmiennymi w kolumnach. W tym schemacie, jeśli miałbyś 7 zmiennych kategorialnych (np. Dla dni tygodnia), dodałbyś 6 nowych kolumn. Wybrałbyś jeden dzień jako kategorię odniesienia, ogólnie ten, który jest uważany za domyślny. Często wynika to z teorii, kontekstu lub pytania badawczego. Nie mam pojęcia, który byłby najlepszy na dni tygodnia, ale to też nie ma większego znaczenia, możesz po prostu wybrać dowolny stary. Gdy masz już kategorię referencyjną, możesz przypisać pozostałe do twoich 6 nowych zmiennych, a następnie po prostu wskazujesz, czy zmienna ta występuje dla każdego przypadku. Załóżmy na przykład, że wybierasz niedzielę jako kategorię referencyjną, twoje nowe kolumny / zmienne byłyby od poniedziałku do soboty. Każda obserwacja, która miała miejsce w poniedziałek, będzie oznaczona symbolem1010

Dawno nie patrzyłem na to, jak Excel robi statystyki, i nie pamiętam tego bardzo wyraźnie, więc ktoś inny może ci w tym pomóc. Ta strona zawiera pewne informacje na temat specyfiki regresji w programie Excel. Mogę powiedzieć trochę więcej na temat statystyk zwykle zgłaszanych w wyniku regresji:

  • r1
  • rrrrr
  • rr×r10r1R21rR2) jest bardzo stronniczy w regresji wielokrotnej. Oznacza to, że im więcej predyktorów dodasz do swojego modelu, tym wyższe będą te statystyki, niezależnie od tego, czy istnieje związek, czy nie. Dlatego należy zachować ostrożność przy ich interpretacji.
  • tF
  • p
  • tFpF1F
  • FF

Na koniec warto podkreślić, że tego procesu nie można oddzielić od kontekstu. Aby dobrze wykonać analizę danych, musisz mieć na uwadze swoją wiedzę ogólną i pytanie badawcze. Nawiązałem do powyższego w odniesieniu do wyboru kategorii odniesienia. Na przykład zauważasz, że rozmiar buta nie powinien być odpowiedni, ale dla Flintstonów prawdopodobnie tak było! Chcę tylko uwzględnić ten fakt, ponieważ często wydaje się, że jest zapomniany.

gung - Przywróć Monikę
źródło
5
(+1) Excel faktycznie może wykonać regresję wielokrotną i ma polecenie zdolne do utworzenia standardowej tabeli podsumowań. Biorąc pod uwagę jego historyczną tendencję do (bardzo) niedbałości przy obliczaniu wartości dystrybucyjnych, zdolność należy postrzegać jak psa Samuela Johnsona : „... pies chodzi na tylnych łapach. Nie jest dobrze, ale jesteś zaskoczony, gdy znajdziesz w ogóle zrobione ”.
whuber
3

Kończymy z wieloma pytaniami, które wymagają regresji „nauczania”. Pozwól mi powiedzieć, że wyższe R ^ 2 jest lepsze, ale są zastrzeżenia. R ^ 2 zawsze rośnie, gdy dodajesz zmienne, abyś mógł sztucznie je zawyżać. Spójrz na testy istotności, spójrz na resztkową diagnostykę itp. W odniesieniu do dnia tygodnia poniedziałek = 1, wtorek = 2 itd. Nie byłby dobrym rozwiązaniem. Co chcesz, to zmienne wskaźnikowe sezonowe: 0/1 jeśli poniedziałek, 0/1 jeśli wtorek itp.

Badgerman
źródło