Jak wyjaśniłbyś uogólnione modele liniowe osobom bez tła statystycznego?

16

Zawsze trudno mi wyjaśnić odbiorcom techniki statystyczne bez tła statystycznego. Gdybym chciał wyjaśnić, czym jest GLM dla takich odbiorców (bez rzucania statystycznego żargonu), jaki byłby najlepszy lub najskuteczniejszy sposób?

Zazwyczaj tłumaczę GLM trzema częściami - (1) składową losową, która jest zmienną odpowiedzi, (2) składową systematyczną, która jest predyktorami liniowymi, oraz (3) funkcją połączenia, która jest „kluczem” do połączenia (1) i (2). Następnie podam przykład regresji liniowej lub logistycznej i wyjaśnię, jak wybierana jest funkcja połączenia na podstawie zmiennej odpowiedzi. Dlatego działa jak klucz łączący dwa elementy.

Rozpoznać
źródło
Jakie tło ma publiczność? Wyjaśnienie GLM matematykowi lub biologowi jest zupełnie inne.
1
Będzie niewielu matematyków bez tła statystycznego, @ Procrastinator. Ale twoja uwaga jest słuszna: posiadanie jaśniejszego wyobrażenia o docelowych odbiorcach pomoże zachować spójność i skupienie odpowiedzi. Czy zechciałbyś zredagować pytanie, aby je rozwinąć, Ken?
whuber
1
Rozumiem twój punkt, @ Procrastinator, ale miałem nadzieję uzyskać łatwą do zrozumienia odpowiedź dla wszystkich (matematyków i / lub biologów), ogólnie, ponieważ jeśli nie mam wykształcenia matematycznego lub biologii (co jest prawdą), I tak nie wiedziałbym, jak wyjaśnić im GLM w odniesieniu do ich pochodzenia.
Ken
4
Myślę, że ważne jest, aby pamiętać, że można uzyskać tytuł licencjata, magistra, a nawet doktorat z biologii bez konieczności wzięcia udziału w zajęciach statystycznych, nawet na wielu uniwersytetach pierwszego poziomu. Mój stopień naukowy z biochemii wymagał dwóch semestrów rachunku wstępnego i jednego semestru równań różniczkowych. Istota tych zajęć jest szybko zapominana, ponieważ wielu uczniów nigdy więcej nie skorzysta z tych umiejętności! Naprawdę uważam, że konieczne jest stępienie wyjaśnienia dla typowych niestatystów.
Alexander
Komentarz, który należy dodać do poniższych odpowiedzi; jeśli uda ci się przejść przez dopasowanie linii (tj. funkcji łącza i predyktorów liniowych), to połączenie ze skutecznym ważeniem odwrotności wariancji nie jest tak trudne do komunikowania; chcemy po prostu podważyć precyzyjne składki i obniżyć resztę. Pozwala to uniknąć mówienia zbyt technicznych kwestii dotyczących losowości wyników. NB GLM zostały opracowane jako (tylko) modele, w których IWLS może być użyty do nadania MLE, więc opisany powyżej sposób myślenia o nich oddaje większość powodów, dla których są one rzeczywiście przydatne.
gość

Odpowiedzi:

25

Jeśli publiczność naprawdę nie ma podstaw statystycznych, myślę, że postaram się nieco uprościć wyjaśnienie. Najpierw narysowałbym płaszczyznę współrzędnych na planszy z linią na niej w następujący sposób:

y = mx + b

Wszyscy podczas rozmowy będą zaznajomieni z równaniem prostej linii, y = m x + b , ponieważ tego się uczy w szkole podstawowej. Więc pokazałbym to obok rysunku. Pisałbym to jednak wstecz: y=mx+b

 mx+b=y

Powiedziałbym, że to równanie jest przykładem prostej regresji liniowej. Wyjaśniłbym wtedy, jak ty (lub komputer) możesz dopasować takie równanie do wykresu punktowego punktów danych, takiego jak ten pokazany na tym obrazie:

Wykres punktowy

Powiedziałbym, że wykorzystujemy wiek badanego organizmu, aby przewidzieć, jak duży jest on, i że otrzymane równanie regresji liniowej, które otrzymujemy (pokazane na zdjęciu), można wykorzystać do przewidzenia, jak duży organizm jest, jeśli znamy jego wiek.

 mx+b=y

Następnie wyjaśniłbym ponownie, że był to przykład prostego równania regresji liniowej i że istnieją w rzeczywistości bardziej skomplikowane odmiany. Na przykład, w odmianie zwanej regresją logistyczną , y mogą przyjmować tylko 1 lub 0. Ktoś może chcieć użyć tego typu modelu, jeśli próbujesz przewidzieć odpowiedź „tak” lub „nie”, na przykład, czy ktoś ma chorobę. Kolejną specjalną odmianą jest coś, co nazywa się regresją Poissona , która jest używana do analizy danych „zliczania” lub „zdarzeń” (nie zagłębiłbym się w to, chyba że naprawdę konieczne).

Wyjaśniłbym wtedy, że regresja liniowa, regresja logistyczna i regresja Poissona są naprawdę szczególnymi przykładami bardziej ogólnej metody, zwanej „uogólnionym modelem liniowym”. Wspaniałą rzeczą w „uogólnionych modelach liniowych” jest to, że pozwalają nam one korzystać z danych „odpowiedzi”, które mogą przyjąć dowolną wartość (na przykład, jak duży organizm jest w regresji liniowej), przyjmować tylko 1 lub 0 (np. Czy ktoś ma choroba w regresji logistycznej) lub zliczaj dyskretnie (np. liczbę zdarzeń w regresji Poissona).

Powiedziałbym wtedy, że w tego rodzaju równaniach x (predyktory) są połączone z y (odpowiedzi) za pomocą czegoś, co statystycy nazywają „funkcją łącza”. Używamy tych „funkcji łączenia” w przypadkach, w których x nie są powiązane z y w sposób liniowy.

W każdym razie to moje dwa centy w tej sprawie! Być może moje proponowane wyjaśnienie brzmi trochę głupio i głupio, ale jeśli celem tego ćwiczenia jest przekazanie „istoty” całej publiczności, być może takie wyjaśnienie nie jest takie złe. Myślę, że ważne jest, aby wyjaśnić tę koncepcję w sposób intuicyjny i unikać rzucania wokół słów takich jak „element losowy”, „element systematyczny”, „funkcja łącza”, „deterministyczny”, „funkcja logit” itp. Jeśli „ Gdy rozmawiam z ludźmi, którzy naprawdę nie mają podstaw statystycznych, jak typowy biolog lub lekarz, ich oczy po prostu oszaleją na dźwięk tych słów. Nie wiedzą, co to jest rozkład prawdopodobieństwa, nigdy nie słyszeli o funkcji linku i nie wiedzą, co to jest „logit”

W twoim wyjaśnieniu dla odbiorców niestatystycznych skupiłbym się również na tym, kiedy użyć jakiej różnorodności modelu. Mógłbym porozmawiać o tym, ile predyktorów możesz uwzględnić po lewej stronie równania (słyszałem zasady, jak nie więcej niż wielkość próbki podzielona przez dziesięć). Przydałoby się również dołączyć przykładowy arkusz kalkulacyjny z danymi i wyjaśnić odbiorcom, jak korzystać z pakietu oprogramowania statystycznego do generowania modelu. Następnie krok po kroku przeglądałem dane wyjściowe tego modelu i próbowałem wyjaśnić, co oznaczają wszystkie różne litery i cyfry. Biolodzy nie mają pojęcia o tych rzeczach i są bardziej zainteresowani nauką, jakiego testu użyć, zamiast faktycznie rozumieć matematykę graficznego interfejsu użytkownika SPSS!

Byłbym wdzięczny za wszelkie uwagi lub sugestie dotyczące mojego proponowanego wyjaśnienia, szczególnie jeśli ktoś zauważy błędy lub pomyśli o lepszym sposobie wyjaśnienia!

Alexander
źródło
4
Nie wszyscy znają równanie dla linii; nawet nie wszyscy doktoranci, ani wszyscy doktoranci.
Peter Flom - Przywróć Monikę
6
To znaczy, jestem pewien, że na świecie istnieje doktorant, który nie zna równania dla linii, ale przypuszczalnie publiczność, której chciałbyś wyjaśnić uogólnione modele liniowe, miałaby co najmniej połowę pojęcia o wysokiej algebra na poziomie szkolnym! : -o
Alexander
Zgadzam się z tobą, Alexander, a twoje podejście wydaje mi się bardzo naturalne. Nie skupiałbym się zbytnio na „g” glm (lub zbyt wcześnie), a także nie rozróżniałbym losowo vs naprawiony. Oczywiście zależy to od czasu, jaki musisz wyjaśnić.
Dominic Comtois
Y=αX+βα
10

Nie nazwałbym odpowiedzi składnikiem losowym. Jest to połączenie komponentu deterministycznego i losowego.

log(p/(1-p)) . Widać, że funkcja logit przekształca zmienną ograniczoną do[0,1]do zmiennej, która może przyjmować wartości w całym wierszu rzeczywistym. W tym przypadku funkcja połączenia sprawia, że ​​odpowiedź jest zgodna ze zmiennymi predyktora, a zatem możliwe jest, aby uczynić ją funkcją liniową predyktorów plus składową losową.

Michael R. Chernick
źródło
3
Zastanawiam się nad tym użyciem „odpowiedzi”. Nasi zamierzeni odbiorcy prawdopodobnie zrozumieliby, że oznacza to obserwowaną odpowiedź: tak lub nie, 0 lub 1 itd. W regresji logistycznej modelujemy coś nieobserwowanego (i nigdy bezpośrednio nie obserwowalnego); mianowicie hipotetyczna szansa na odpowiedź. „Link” polega jedynie na wyrażeniu tych szans jako logarytmicznych szans, a nie prawdopodobieństw. Regresja logistyczna zakłada, że ​​logarytmiczne szanse różnią się liniowo z wartościami IV. (Moje użycie „modelu”, „zakładania” i „hipotetycznego” zamiast „jest” i „przewidywania” wskazuje również na inny punkt widzenia poznawczy i ontologiczny.)
whuber
1
Dobra uwaga.
Michael R. Chernick
-2

Wyjaśniłbym to, mówiąc, że czasami potrzebuję rzeczy przewidywanych. Na przykład cena domu podała pewne informacje na jego temat. Powiedzmy, jego wielkość, lokalizacja, ile lat ma konstrukcja itp. Chcę to uwzględnić w modelu uwzględniającym wpływ tych czynników na przewidywanie ceny.

Biorąc teraz podprzykład, powiedzmy, rozważam tylko wielkość domu. Oznaczałoby to, że nic więcej nie wpływa na cenę. Może to być przypadek, w którym porównuję domy, które znajdują się w tej samej miejscowości, zostały zbudowane w tym samym czasie itp. Lub może nie chcę, aby sprawy komplikowały się dla mnie, a zatem chcę, aby prawdziwe życie było zgodne z tym, jak daleko mogę myśleć. Przechodząc dalej, tworzę model, w którym mam listę rozmiarów i odpowiadających cen podobnych nieruchomości (powiedzmy, ze sprzedaży, które miały miejsce ostatnio ... ale które miałyby poważne uprzedzenia z domów, które nie są na sprzedaż, a zatem wpływają na cenę domów, które są ... ale zignorujmy to.

Teraz widzę, że dom o powierzchni 100 stóp kwadratowych kosztuje 1 mln USD (daj sobie spokój, jest to uproszczony przykład). Więc naturalnie można oczekiwać, że dom o powierzchni 200 stóp kwadratowych będzie kosztował podwójnie. I to właśnie nazwalibyśmy „wzorem liniowym”. Oczywiście, gdy zbieramy dane i wielkość działki w zależności od ceny, widzimy, że nie jest ona dokładnie podwójna. Ale zdecydowanie rośnie tendencja.

Staram się więc zmierzyć trend. Ile wzrostu za każde zwiększenie stopy kwadratowej? To jest regresja liniowa.

WSTAW mapę terminologiczną i kontynuuj koncepcje statystyczne. Jednym ze sposobów wyjaśnienia losowego i systematycznego elementu może być to, że cokolwiek zapomniałeś modelować lub czego nie mogłeś ocenić, jest losowe. Cokolwiek byś mógł, jest systematyczny. (Powiedzmy na przykład, że jest rok 2008 i chcesz sprzedać dom.)

Założenia tego modelu zakładają, że wykres rozproszenia powinien wyglądać jak pręt. Oznacza to, że zarówno X, jak i Y są „normalne”. i wszystkie mają podobną wariancję.

Jeśli tak nie jest, wpisz GLM. a teraz objaśnij funkcję link n to wszystko.

Jest uproszczony, ale powinien działać jako wprowadzenie.

Możesz wprowadzić do historii GLM i modele czynnikowe. Tam, gdzie Fisher wymagał, by wszystko zaczęło się różnić, a ten schemat był odpowiedni dla tego rodzaju złożoności.

Mam nadzieję że to pomoże...

Naag
źródło
1
Doceniamy twój wysiłek, ale nie musisz publikować swojego materiału, dopóki nie skończysz go pisać. W obecnej formie sposób, w jaki rozpada się na rzadkie, tajemnicze notatki na końcu, rozczaruje czytelników.
whuber