W jaki sposób może posłużyć model regresji, jeśli nie znasz funkcji, dla której próbujesz uzyskać parametry?
Widziałem badanie, w którym stwierdzono, że matki karmiące piersią rzadziej chorują na cukrzycę w późniejszym życiu. Badanie pochodziło z badania około 1000 matek i było kontrolowane pod kątem różnych czynników i zastosowano model logiczny.
Czy to oznacza, że liczą się wszystkie czynniki, które określają prawdopodobieństwo dopasowania się cukrzycy do ładnej funkcji (przypuszczalnie wykładniczej), która przekłada się zgrabnie na model liniowy z logami i czy to, czy karmiona piersią kobieta okazała się statystycznie istotna?
Brakuje mi czegoś, jestem pewien, ale jak, do diabła, znają model?
regression
modeling
epidemiology
log-linear
Jonathan Andrews
źródło
źródło
Odpowiedzi:
Pomaga postrzegać regresję jako liniowe przybliżenie prawdziwej formy. Załóżmy, że prawdziwy jest związek
źródło
Druga strona odpowiedzi, uzupełniająca odpowiedź mpiktas, ale do tej pory nie wspomniana, to:
„Nie robią tego, ale jak tylko przyjmą jakąś strukturę modelu, mogą to sprawdzić na podstawie danych”.
Dwie podstawowe rzeczy, które mogą pójść nie tak: Forma funkcji, np. Nie jest nawet liniowa w logach. Więc zacznij od wykreślenia odpowiedniej wartości resztkowej w stosunku do oczekiwanych wartości. Lub wybór rozkładu warunkowego , np. Obserwowane liczby rozproszone względem Poissona. Testujesz więc na negatywnej dwumianowej wersji tego samego modelu lub sprawdzasz, czy dodatkowe zmienne towarzyszące uwzględniają dodatkową odmianę.
Chciałbyś również sprawdzić wartości odstające, wpływowe obserwacje i wiele innych rzeczy. Rozsądnym miejscem do przeczytania o sprawdzaniu tego rodzaju problemów modelowych jest rozdział 5 Cameron i Trivedi 1998. (Z pewnością istnieje lepsze miejsce dla początkujących badaczy epidemiologicznych - być może inni ludzie mogą to zasugerować).
Jeśli te diagnostyki wskazują, że model nie pasuje do danych, należy zmienić odpowiedni aspekt modelu i ponownie rozpocząć cały proces.
źródło
Doskonałe pierwsze pytanie! Zgadzam się z odpowiedzią mpiktas, tj. Krótka odpowiedź brzmi „nie, ale mają nadzieję, że uda się uzyskać przybliżenie do odpowiedniego modelu, który daje w przybliżeniu właściwą odpowiedź”.
W żargonie epidemiologicznym ten model niepewności jest jednym ze źródeł tak zwanego „ szczątkowego zamieszania ”. Zobacz stronę Steve'a Simona „Co to jest zamieszanie resztkowe?” dobry krótki opis lub artykuł Heiko Becher z 1992 r. w statystyce w medycynie (wymagana subskrypcja) na dłuższe, bardziej matematyczne podejście, lub najnowszy artykuł Davey Smith & Sterne w American Journal of Epidemiology (wymagana subskrypcja ).
Jest to jeden z powodów, dla których epidemiologia niewielkich efektów jest trudna, a ustalenia często budzą kontrowersje - jeśli zmierzona wielkość efektu jest niewielka, trudno jest wykluczyć resztkowe zamieszanie lub inne źródła błędu.
źródło
Istnieje słynny cytat „Zasadniczo wszystkie modele są błędne, ale niektóre są przydatne” George'a Boxa . Dopasowując takie modele, staramy się (lub powinniśmy) pomyśleć o procesie generowania danych i fizycznym, rzeczywistym świecie, relacjach między odpowiedzią a zmiennymi towarzyszącymi. Staramy się wyrazić te relacje w modelu, który pasuje do danych. Innymi słowy, jest zgodny z danymi. Jako taki powstaje model empiryczny.
To, czy jest przydatne, czy nie, określa się później - czy daje dobre, wiarygodne prognozy, na przykład dla kobiet, które nie są przyzwyczajone do modelu? Czy współczynniki modelu są interpretowalne i mają zastosowanie naukowe? Czy rozmiary efektów są znaczące?
źródło
Odpowiedzi, które już otrzymałeś, są doskonałe, ale dam (miejmy nadzieję) komplementarną odpowiedź z perspektywy epidemiologa. Naprawdę mam trzy przemyślenia na ten temat:
Po pierwsze nie. Zobacz także: Wszystkie modele są nieprawidłowe, niektóre modele są przydatne. Celem nie jest stworzenie pojedynczej, ostatecznej liczby, która jest uważana za „prawdę” funkcji leżącej u podstaw. Celem jest oszacowanie tej funkcji wraz z kwantyfikacją niepewności wokół niej, która jest rozsądnym i użytecznym przybliżeniem funkcji podstawowej.
Jest to szczególnie prawdziwe w przypadku miar o dużym efekcie. Komunikat „zabierz” z badania, w którym stwierdzono względne ryzyko 3,0, tak naprawdę nie różni się, jeśli „prawdziwa” relacja wynosi 2,5 lub 3,2. Jak wspomniano w @onestop, staje się to trudniejsze przy niewielkich oszacowaniach miar efektu, ponieważ różnica między 0,9, 1,0 a 1,1 może być ogromna z punktu widzenia zdrowia i polityki.
Po drugie, w większości prac epidemiologicznych ukryty jest proces. To jest faktyczny proces wyboru modelu . Mamy tendencję do zgłaszania modelu, z którym się skończyliśmy, a nie wszystkich modeli, które rozważaliśmy (ponieważ byłoby to męczące, jeśli nic innego). Istnieje mnóstwo etapów budowy modelu, schematów koncepcyjnych, diagnostyki, statystyki dopasowania, analizy wrażliwości, przekleństw na komputerach i bazgrania na białych tablicach zaangażowanych w analizę nawet niewielkich badań obserwacyjnych.
Ponieważ podczas są tworzenia założeń, wielu z nich są również założenia można sprawdzić.
Po trzecie, czasami nie. A potem idziemy na konferencje i dyskutujemy o tym;)
Jeśli interesują Cię zagadki Epidemiologii jako dziedziny oraz sposób przeprowadzania badań, najlepszym miejscem do rozpoczęcia jest prawdopodobnie trzecia edycja Modern Epidemiology autorstwa Rothmana, Grenlandii i Lasha. Jest to umiarkowanie techniczny i bardzo dobry przegląd sposobu prowadzenia badań Epi.
źródło