Załóżmy, że mam kilka miast o różnej wielkości populacji i chciałem sprawdzić, czy istnieje dodatnia liniowa zależność między liczbą sklepów monopolowych w mieście a liczbą DUI. Gdzie określam, czy związek ten jest znaczący, czy nie, na podstawie testu t szacowanego współczynnika regresji.
Teraz wyraźnie pop. wielkość miasta będzie pozytywnie skorelowana zarówno z liczbą DUI, jak i liczbą sklepów monopolowych. Zatem jeśli przeprowadzę prostą regresję liniową tylko dla zapasów alkoholu i zobaczę, czy jej współczynnik regresji jest statystycznie istotny, prawdopodobnie napotkam problem wielokoliniowości i zawyżę wpływ zapasów alkoholu na DUI.
Którą z dwóch metod powinienem zastosować, aby to poprawić?
Powinienem podzielić liczbę sklepów monopolowych w mieście przez ich populację, aby uzyskać sklep monopolowy na jednego mieszkańca, a następnie zrezygnować z tego.
Powinienem zrezygnować zarówno z zapasów, jak i rozmiarów, a następnie sprawdzić, czy współczynnik przechowywania likieru jest znaczący podczas kontrolowania wielkości.
Jakaś inna metoda?
Szczerze mówiąc, nie mogę zdecydować, co wydaje się bardziej sensowne. Waham się między nimi, w zależności od tego, o którym myślę, jestem w stanie przekonać się, że to właściwa droga.
Z jednej strony sklepy monopolowe na mieszkańca wydają się właściwą zmienną, ponieważ DUI są popełniane przez osoby fizyczne, ale nie wydaje się to zbyt rygorystyczne statystycznie. Z drugiej strony kontrola wielkości wydaje się statystycznie rygorystyczna, ale raczej pośrednia. Co więcej, jeśli przeskaluję po obliczeniu zmiennej zapasów ługu na mieszkańca, otrzymam bardzo podobne współczynniki regresji między dwiema metodami, ale metoda 1 daje mniejszą wartość p.
Odpowiedzi:
Wyrejestrowałbym „DUI na mieszkańca” (Y) w „sklepach z alkoholami na mieszkańca” (X) i „wielkości populacji” (Z). W ten sposób twoje Y odzwierciedla skłonność do jazdy pod wpływem alkoholu mieszkańców miast, podczas gdy X jest populacją charakterystyczną dla danego miasta. Z jest zmienną kontrolną na wszelki wypadek, jeśli występuje wpływ wielkości na Y. Nie sądzę, że w tym ustawieniu pojawi się problem wielokoliniowości.
Ta konfiguracja jest bardziej interesująca niż twój model 1. Tutaj podstawą jest założenie, że liczba DUI jest proporcjonalna do populacji, podczas gdyβZ uchwyciłoby nieliniowość, np. ludzie w większych miastach są bardziej podatni na jazdę po pijanemu. Również X bezpośrednio odzwierciedla środowisko kulturowe i prawne, już dostosowane do wielkości. Możesz skończyć z mniej więcej tym samym X dla miast o różnych rozmiarach w Sough. Pozwala to również wprowadzić inne zmienne kontrolne, takie jak stan Czerwony / Niebieski, Wybrzeże / Kontynentalne itp.
źródło
Przy szacowaniu modelu za pomocą zwykłych najmniejszych kwadratów druga regresja jest raczej problematyczna.
I możesz pomyśleć o tym, jak wariancja terminu błędu różni się w zależności od wielkości miasta.
Regresja (2) jest równoważna regresji (1), gdzie obserwacje są ważone przez kwadrat populacji miasta:
Dla każdego miastaja , pozwolić yja bądź pijany w wypadkach drogowych na mieszkańca, niech xja bądźcie sklepami monopolowymi na mieszkańca i pozwólcie nja być populacją miasta.
Regresja (1) to:
Jest to liczba ważona najmniejszych kwadratów , a zastosowane wagi są kwadratem populacji miasta. Tyle wagi przykładasz do największych miast ?!
Zauważ, że jeśli miałeś obserwację dla każdej osoby w mieście i przypisałeś każdej osobie średnią wartość dla miasta, byłoby to równoznaczne z przeprowadzeniem regresji, w której każde miasto ważone jest według liczby ludności (a nie liczby mieszkańców do kwadratu).
źródło
Przeprowadziłem kilka eksperymentów na danych symulowanych, aby sprawdzić, która metoda działa najlepiej. Proszę przeczytać moje ustalenia poniżej.
Przyjrzyjmy się dwóm różnym scenariuszom - po pierwsze, gdy nie ma bezpośredniego związku między sklepami DUI i alkoholowymi, a po drugie, gdy mamy bezpośredni związek. Następnie sprawdź każdą z metod, aby zobaczyć, która metoda działa najlepiej.
Przypadek 1: Brak bezpośredniego związku, ale oba są związane z populacją
Teraz, gdy dane są symulowane, zobaczmy, jak radzi sobie każda z metod.
Nbr_Liquor_Stores bardzo znaczący, zgodnie z oczekiwaniami. Chociaż związek jest pośredni.
Nbr_Liquor_Stores nie ma znaczenia. Niby działa, ale nie wyciągajmy jeszcze wniosków.
Nbr_Liquor_Stores nieistotne, wartość p jest również dość zbliżona do metody 1.
(Nbr_Liquor_Stores / popln) bardzo znaczący! Nie spodziewałem się tego, być może ta metoda nie jest najlepsza do opisu problemu.
Przypadek 2: Bezpośredni związek z populacją i Nbr_Liquor_Stores
Zobaczmy wydajność każdej z metod w tym scenariuszu.
Oczekiwana, ale nie świetna metoda wnioskowania przyczynowego.
To dla mnie niespodzianka, spodziewałem się, że ta metoda uchwyci związek, ale go nie odbierze. Więc ta metoda zawodzi w tym scenariuszu!
Nbr_Liquor_Stores jest znaczący, wartość p ma sens. Dla mnie wyraźny zwycięzca.
TLDR; Metoda 2 zapewnia najdokładniejsze wartości p dla różnych scenariuszy.
źródło