Zrozumienie regresji - rola modelu

46

W jaki sposób może posłużyć model regresji, jeśli nie znasz funkcji, dla której próbujesz uzyskać parametry?

Widziałem badanie, w którym stwierdzono, że matki karmiące piersią rzadziej chorują na cukrzycę w późniejszym życiu. Badanie pochodziło z badania około 1000 matek i było kontrolowane pod kątem różnych czynników i zastosowano model logiczny.

Czy to oznacza, że ​​liczą się wszystkie czynniki, które określają prawdopodobieństwo dopasowania się cukrzycy do ładnej funkcji (przypuszczalnie wykładniczej), która przekłada się zgrabnie na model liniowy z logami i czy to, czy karmiona piersią kobieta okazała się statystycznie istotna?

Brakuje mi czegoś, jestem pewien, ale jak, do diabła, znają model?

Jonathan Andrews
źródło
Bardzo wam wszystkim dziękuję. Chcę poświęcić trochę czasu na zastanowienie się nad twoimi odpowiedziami i być może, jeśli nie masz nic przeciwko, że spróbuję napisać je na moje warunki dla twoich poglądów. Podoba mi się ten opis procesu pochodzący z serii Taylor. Musiałem podnosić swoją wiedzę na temat regresji przypadkowo i poprzez ekonomię i matematykę dla ekonomistów, a związek z Taylorem jest zauważalny przez jego brak.
Jonathan Andrews,
Połączyłem twoje konta; ale proszę zarejestruj go tutaj stats.stackexchange.com/users/login , abyś nie stracił go ponownie.

Odpowiedzi:

43

Pomaga postrzegać regresję jako liniowe przybliżenie prawdziwej formy. Załóżmy, że prawdziwy jest związek

y=f(x1,...,xk)

x1,...,xkyf

f(x1,...,xk)=f(0,...,0)+i=1kf(0)xkxk+ε,

εα0=f(0,...,0)αk=f(0)xk

y=α0+α1x1+...+αkxk+ε

ε

mpiktas
źródło
1
Cześć, bardzo miłe wytłumaczenie, ale nie rozumiem części „sigma” w rozszerzeniu serii Taylor. Jak sprowadzić to równanie znalezione tutaj: mathworld.wolfram.com/TaylorSeries.html w części „Szereg Taylora funkcji rzeczywistej w dwóch zmiennych” do swojego?
Arun
1
n=1
18

Druga strona odpowiedzi, uzupełniająca odpowiedź mpiktas, ale do tej pory nie wspomniana, to:

„Nie robią tego, ale jak tylko przyjmą jakąś strukturę modelu, mogą to sprawdzić na podstawie danych”.

Dwie podstawowe rzeczy, które mogą pójść nie tak: Forma funkcji, np. Nie jest nawet liniowa w logach. Więc zacznij od wykreślenia odpowiedniej wartości resztkowej w stosunku do oczekiwanych wartości. Lub wybór rozkładu warunkowego , np. Obserwowane liczby rozproszone względem Poissona. Testujesz więc na negatywnej dwumianowej wersji tego samego modelu lub sprawdzasz, czy dodatkowe zmienne towarzyszące uwzględniają dodatkową odmianę.

Chciałbyś również sprawdzić wartości odstające, wpływowe obserwacje i wiele innych rzeczy. Rozsądnym miejscem do przeczytania o sprawdzaniu tego rodzaju problemów modelowych jest rozdział 5 Cameron i Trivedi 1998. (Z pewnością istnieje lepsze miejsce dla początkujących badaczy epidemiologicznych - być może inni ludzie mogą to zasugerować).

Jeśli te diagnostyki wskazują, że model nie pasuje do danych, należy zmienić odpowiedni aspekt modelu i ponownie rozpocząć cały proces.

sprzężonyprior
źródło
1
+1 To jest klucz, który powstrzymuje to od machania ręką: nie wiesz, ale próbujesz czegoś, a następnie patrzysz, jak dobrze pasuje i w jaki sposób nie pasuje do twoich danych.
Wayne
15

Doskonałe pierwsze pytanie! Zgadzam się z odpowiedzią mpiktas, tj. Krótka odpowiedź brzmi „nie, ale mają nadzieję, że uda się uzyskać przybliżenie do odpowiedniego modelu, który daje w przybliżeniu właściwą odpowiedź”.

W żargonie epidemiologicznym ten model niepewności jest jednym ze źródeł tak zwanego „ szczątkowego zamieszania ”. Zobacz stronę Steve'a Simona „Co to jest zamieszanie resztkowe?” dobry krótki opis lub artykuł Heiko Becher z 1992 r. w statystyce w medycynie (wymagana subskrypcja) na dłuższe, bardziej matematyczne podejście, lub najnowszy artykuł Davey Smith & Sterne w American Journal of Epidemiology (wymagana subskrypcja ).

Jest to jeden z powodów, dla których epidemiologia niewielkich efektów jest trudna, a ustalenia często budzą kontrowersje - jeśli zmierzona wielkość efektu jest niewielka, trudno jest wykluczyć resztkowe zamieszanie lub inne źródła błędu.

jeden przystanek
źródło
1
Twierdziłbym, że błędna specyfikacja modelu - która wydaje się być tym, o czym mówi OP, różni się nieco od resztkowego zamieszania. Zakłócenie wymaga współzmiennej. Można zepsuć regresję ze tylko do być błąd w ekspozycji i wyniku.
Fomite
13

Istnieje słynny cytat „Zasadniczo wszystkie modele są błędne, ale niektóre są przydatne” George'a Boxa . Dopasowując takie modele, staramy się (lub powinniśmy) pomyśleć o procesie generowania danych i fizycznym, rzeczywistym świecie, relacjach między odpowiedzią a zmiennymi towarzyszącymi. Staramy się wyrazić te relacje w modelu, który pasuje do danych. Innymi słowy, jest zgodny z danymi. Jako taki powstaje model empiryczny.

To, czy jest przydatne, czy nie, określa się później - czy daje dobre, wiarygodne prognozy, na przykład dla kobiet, które nie są przyzwyczajone do modelu? Czy współczynniki modelu są interpretowalne i mają zastosowanie naukowe? Czy rozmiary efektów są znaczące?

Przywróć Monikę - G. Simpson
źródło
3

Odpowiedzi, które już otrzymałeś, są doskonałe, ale dam (miejmy nadzieję) komplementarną odpowiedź z perspektywy epidemiologa. Naprawdę mam trzy przemyślenia na ten temat:

Po pierwsze nie. Zobacz także: Wszystkie modele są nieprawidłowe, niektóre modele są przydatne. Celem nie jest stworzenie pojedynczej, ostatecznej liczby, która jest uważana za „prawdę” funkcji leżącej u podstaw. Celem jest oszacowanie tej funkcji wraz z kwantyfikacją niepewności wokół niej, która jest rozsądnym i użytecznym przybliżeniem funkcji podstawowej.

Jest to szczególnie prawdziwe w przypadku miar o dużym efekcie. Komunikat „zabierz” z badania, w którym stwierdzono względne ryzyko 3,0, tak naprawdę nie różni się, jeśli „prawdziwa” relacja wynosi 2,5 lub 3,2. Jak wspomniano w @onestop, staje się to trudniejsze przy niewielkich oszacowaniach miar efektu, ponieważ różnica między 0,9, 1,0 a 1,1 może być ogromna z punktu widzenia zdrowia i polityki.

Po drugie, w większości prac epidemiologicznych ukryty jest proces. To jest faktyczny proces wyboru modelu . Mamy tendencję do zgłaszania modelu, z którym się skończyliśmy, a nie wszystkich modeli, które rozważaliśmy (ponieważ byłoby to męczące, jeśli nic innego). Istnieje mnóstwo etapów budowy modelu, schematów koncepcyjnych, diagnostyki, statystyki dopasowania, analizy wrażliwości, przekleństw na komputerach i bazgrania na białych tablicach zaangażowanych w analizę nawet niewielkich badań obserwacyjnych.

Ponieważ podczas tworzenia założeń, wielu z nich są również założenia można sprawdzić.

Po trzecie, czasami nie. A potem idziemy na konferencje i dyskutujemy o tym;)

Jeśli interesują Cię zagadki Epidemiologii jako dziedziny oraz sposób przeprowadzania badań, najlepszym miejscem do rozpoczęcia jest prawdopodobnie trzecia edycja Modern Epidemiology autorstwa Rothmana, Grenlandii i Lasha. Jest to umiarkowanie techniczny i bardzo dobry przegląd sposobu prowadzenia badań Epi.

Fomite
źródło
1
+1, to dobre uzupełnienie tego, co jest tutaj. Miło jest widzieć, że nadal można wnieść użyteczny wkład, nawet gdy istnieje już wiele innych dobrych.
gung - Przywróć Monikę