Zawsze trudno mi wyjaśnić odbiorcom techniki statystyczne bez tła statystycznego. Gdybym chciał wyjaśnić, czym jest GLM dla takich odbiorców (bez rzucania statystycznego żargonu), jaki byłby najlepszy lub najskuteczniejszy sposób?
Zazwyczaj tłumaczę GLM trzema częściami - (1) składową losową, która jest zmienną odpowiedzi, (2) składową systematyczną, która jest predyktorami liniowymi, oraz (3) funkcją połączenia, która jest „kluczem” do połączenia (1) i (2). Następnie podam przykład regresji liniowej lub logistycznej i wyjaśnię, jak wybierana jest funkcja połączenia na podstawie zmiennej odpowiedzi. Dlatego działa jak klucz łączący dwa elementy.
generalized-linear-model
communication
Rozpoznać
źródło
źródło
Odpowiedzi:
Jeśli publiczność naprawdę nie ma podstaw statystycznych, myślę, że postaram się nieco uprościć wyjaśnienie. Najpierw narysowałbym płaszczyznę współrzędnych na planszy z linią na niej w następujący sposób:
Wszyscy podczas rozmowy będą zaznajomieni z równaniem prostej linii, y = m x + b , ponieważ tego się uczy w szkole podstawowej. Więc pokazałbym to obok rysunku. Pisałbym to jednak wstecz: y= m x + b
Powiedziałbym, że to równanie jest przykładem prostej regresji liniowej. Wyjaśniłbym wtedy, jak ty (lub komputer) możesz dopasować takie równanie do wykresu punktowego punktów danych, takiego jak ten pokazany na tym obrazie:
Powiedziałbym, że wykorzystujemy wiek badanego organizmu, aby przewidzieć, jak duży jest on, i że otrzymane równanie regresji liniowej, które otrzymujemy (pokazane na zdjęciu), można wykorzystać do przewidzenia, jak duży organizm jest, jeśli znamy jego wiek.
Następnie wyjaśniłbym ponownie, że był to przykład prostego równania regresji liniowej i że istnieją w rzeczywistości bardziej skomplikowane odmiany. Na przykład, w odmianie zwanej regresją logistyczną , y mogą przyjmować tylko 1 lub 0. Ktoś może chcieć użyć tego typu modelu, jeśli próbujesz przewidzieć odpowiedź „tak” lub „nie”, na przykład, czy ktoś ma chorobę. Kolejną specjalną odmianą jest coś, co nazywa się regresją Poissona , która jest używana do analizy danych „zliczania” lub „zdarzeń” (nie zagłębiłbym się w to, chyba że naprawdę konieczne).
Wyjaśniłbym wtedy, że regresja liniowa, regresja logistyczna i regresja Poissona są naprawdę szczególnymi przykładami bardziej ogólnej metody, zwanej „uogólnionym modelem liniowym”. Wspaniałą rzeczą w „uogólnionych modelach liniowych” jest to, że pozwalają nam one korzystać z danych „odpowiedzi”, które mogą przyjąć dowolną wartość (na przykład, jak duży organizm jest w regresji liniowej), przyjmować tylko 1 lub 0 (np. Czy ktoś ma choroba w regresji logistycznej) lub zliczaj dyskretnie (np. liczbę zdarzeń w regresji Poissona).
Powiedziałbym wtedy, że w tego rodzaju równaniach x (predyktory) są połączone z y (odpowiedzi) za pomocą czegoś, co statystycy nazywają „funkcją łącza”. Używamy tych „funkcji łączenia” w przypadkach, w których x nie są powiązane z y w sposób liniowy.
W każdym razie to moje dwa centy w tej sprawie! Być może moje proponowane wyjaśnienie brzmi trochę głupio i głupio, ale jeśli celem tego ćwiczenia jest przekazanie „istoty” całej publiczności, być może takie wyjaśnienie nie jest takie złe. Myślę, że ważne jest, aby wyjaśnić tę koncepcję w sposób intuicyjny i unikać rzucania wokół słów takich jak „element losowy”, „element systematyczny”, „funkcja łącza”, „deterministyczny”, „funkcja logit” itp. Jeśli „ Gdy rozmawiam z ludźmi, którzy naprawdę nie mają podstaw statystycznych, jak typowy biolog lub lekarz, ich oczy po prostu oszaleją na dźwięk tych słów. Nie wiedzą, co to jest rozkład prawdopodobieństwa, nigdy nie słyszeli o funkcji linku i nie wiedzą, co to jest „logit”
W twoim wyjaśnieniu dla odbiorców niestatystycznych skupiłbym się również na tym, kiedy użyć jakiej różnorodności modelu. Mógłbym porozmawiać o tym, ile predyktorów możesz uwzględnić po lewej stronie równania (słyszałem zasady, jak nie więcej niż wielkość próbki podzielona przez dziesięć). Przydałoby się również dołączyć przykładowy arkusz kalkulacyjny z danymi i wyjaśnić odbiorcom, jak korzystać z pakietu oprogramowania statystycznego do generowania modelu. Następnie krok po kroku przeglądałem dane wyjściowe tego modelu i próbowałem wyjaśnić, co oznaczają wszystkie różne litery i cyfry. Biolodzy nie mają pojęcia o tych rzeczach i są bardziej zainteresowani nauką, jakiego testu użyć, zamiast faktycznie rozumieć matematykę graficznego interfejsu użytkownika SPSS!
Byłbym wdzięczny za wszelkie uwagi lub sugestie dotyczące mojego proponowanego wyjaśnienia, szczególnie jeśli ktoś zauważy błędy lub pomyśli o lepszym sposobie wyjaśnienia!
źródło
Nie nazwałbym odpowiedzi składnikiem losowym. Jest to połączenie komponentu deterministycznego i losowego.
źródło
Wyjaśniłbym to, mówiąc, że czasami potrzebuję rzeczy przewidywanych. Na przykład cena domu podała pewne informacje na jego temat. Powiedzmy, jego wielkość, lokalizacja, ile lat ma konstrukcja itp. Chcę to uwzględnić w modelu uwzględniającym wpływ tych czynników na przewidywanie ceny.
Biorąc teraz podprzykład, powiedzmy, rozważam tylko wielkość domu. Oznaczałoby to, że nic więcej nie wpływa na cenę. Może to być przypadek, w którym porównuję domy, które znajdują się w tej samej miejscowości, zostały zbudowane w tym samym czasie itp. Lub może nie chcę, aby sprawy komplikowały się dla mnie, a zatem chcę, aby prawdziwe życie było zgodne z tym, jak daleko mogę myśleć. Przechodząc dalej, tworzę model, w którym mam listę rozmiarów i odpowiadających cen podobnych nieruchomości (powiedzmy, ze sprzedaży, które miały miejsce ostatnio ... ale które miałyby poważne uprzedzenia z domów, które nie są na sprzedaż, a zatem wpływają na cenę domów, które są ... ale zignorujmy to.
Teraz widzę, że dom o powierzchni 100 stóp kwadratowych kosztuje 1 mln USD (daj sobie spokój, jest to uproszczony przykład). Więc naturalnie można oczekiwać, że dom o powierzchni 200 stóp kwadratowych będzie kosztował podwójnie. I to właśnie nazwalibyśmy „wzorem liniowym”. Oczywiście, gdy zbieramy dane i wielkość działki w zależności od ceny, widzimy, że nie jest ona dokładnie podwójna. Ale zdecydowanie rośnie tendencja.
Staram się więc zmierzyć trend. Ile wzrostu za każde zwiększenie stopy kwadratowej? To jest regresja liniowa.
WSTAW mapę terminologiczną i kontynuuj koncepcje statystyczne. Jednym ze sposobów wyjaśnienia losowego i systematycznego elementu może być to, że cokolwiek zapomniałeś modelować lub czego nie mogłeś ocenić, jest losowe. Cokolwiek byś mógł, jest systematyczny. (Powiedzmy na przykład, że jest rok 2008 i chcesz sprzedać dom.)
Założenia tego modelu zakładają, że wykres rozproszenia powinien wyglądać jak pręt. Oznacza to, że zarówno X, jak i Y są „normalne”. i wszystkie mają podobną wariancję.
Jeśli tak nie jest, wpisz GLM. a teraz objaśnij funkcję link n to wszystko.
Jest uproszczony, ale powinien działać jako wprowadzenie.
Możesz wprowadzić do historii GLM i modele czynnikowe. Tam, gdzie Fisher wymagał, by wszystko zaczęło się różnić, a ten schemat był odpowiedni dla tego rodzaju złożoności.
Mam nadzieję że to pomoże...
źródło