W artykule zatytułowanym „WYBÓR WŚRÓD OGÓLNYCH MODELI LINIOWYCH STOSOWANYCH DO DANYCH MEDYCZNYCH” autorzy piszą:
W uogólnionym modelu liniowym średnia jest przekształcana przez funkcję link, zamiast przekształcać samą odpowiedź. Dwie metody transformacji mogą prowadzić do zupełnie różnych wyników; na przykład średnia odpowiedzi transformowanych logarytmicznie nie jest taka sama jak logarytm średniej odpowiedzi . Ogólnie rzecz biorąc, tego pierwszego nie można łatwo przekształcić w średnią odpowiedź. Tak więc przekształcenie średniej często pozwala na łatwiejszą interpretację wyników, zwłaszcza w tym, że średnie parametry pozostają w tej samej skali co mierzone odpowiedzi.
Wydaje się, że zalecają dopasowanie uogólnionego modelu liniowego (GLM) z łączem logarytmicznym zamiast modelu liniowego (LM) z odpowiedzią transformowaną logarytmicznie. Nie rozumiem zalet tego podejścia i wydaje mi się to dość niezwykłe.
Moja zmienna odpowiedzi wygląda na log-normalnie rozłożoną. Otrzymuję podobne wyniki pod względem współczynników i ich standardowych błędów przy obu podejściach.
Nadal zastanawiam się: jeśli zmienna ma rozkład logarytmiczno-normalny, to czy nie jest lepsza średnia zmiennej transformowanej logarytmicznie niż log średniej zmiennej nietransformowanej , ponieważ średnia jest naturalnym podsumowaniem rozkładu normalnego i log -transformowana zmienna jest zwykle rozkładana, podczas gdy sama zmienna nie jest?
Odpowiedzi:
Chociaż może się wydawać, że średnia zmiennych przekształcanych logarytmicznie jest lepsza (ponieważ w ten sposób logarytm normalny jest zwykle parametryzowany), z praktycznego punktu widzenia log średniej jest zwykle znacznie bardziej użyteczny.
Jest to szczególnie prawdziwe, gdy twój model nie jest dokładnie poprawny, i cytując George'a Boxa: „Wszystkie modele są złe, niektóre są przydatne”
Załóżmy, że pewna ilość to log normalnie rozłożony, ciśnienie krwi mówi (nie jestem medykiem!), A mamy dwie populacje, mężczyzn i kobiet. Można postawić hipotezę, że średnie ciśnienie krwi jest wyższe u kobiet niż u mężczyzn. To dokładnie odpowiada pytaniu, czy log średniego ciśnienia krwi jest wyższy u kobiet niż u mężczyzn. To nie to samo, co pytanie, czy średnia wartość logarytmicznego ciśnienia krwi jest wyższa u kobiet niż u mężczyzn .
Nie daj się zwieść parametryzowanemu rozkładowi podręczników - nie ma on żadnego „rzeczywistego” znaczenia. Rozkład log-normalny jest parametryzowany za pomocą logarytmu ( ) ze względu na matematyczną wygodę, ale równie dobrze moglibyśmy sparametryzować go za pomocą jego rzeczywistej średniej i wariancjiμln
Oczywiście, czyniąc to, algebra jest strasznie skomplikowana, ale nadal działa i oznacza to samo.
Patrząc na powyższą formułę, widzimy ważną różnicę między przekształcaniem zmiennych a przekształcaniem średniej. Log średniej, , rośnie wraz ze wzrostem , podczas gdy średnia logu, nie.σ 2 ln μ lnln(μ) σ2ln μln
Oznacza to, że kobiety mogą mieć średnio wyższe ciśnienie krwi niż mężczyźni, mimo że średnia para log normalnego rozkładu ( ) jest taka sama, po prostu dlatego, że parametr wariancji jest większy. Fakt ten zostałby pominięty w teście wykorzystującym log (ciśnienie krwi).μln
Do tej pory zakładaliśmy, że ciśnienie krwi rzeczywiście jest log-normalne. Jeśli prawdziwe rozkłady nie są całkiem logiczne, wówczas transformacja danych (zwykle) pogorszy sytuację - ponieważ nie będziemy do końca wiedzieć, co tak naprawdę oznacza nasz parametr „średni”. Tzn. Nie poznamy tych dwóch równań dla średniej i wariancji, które podałem powyżej, są poprawne. Użycie ich do przekształcenia tam iz powrotem spowoduje dodatkowe błędy.
źródło
Oto moje dwa centy z kursu zaawansowanej analizy danych, który podjąłem podczas studiów biostatystycznych (chociaż nie mam żadnych referencji innych niż notatki mojego profesora):
Sprowadza się to do tego, czy musisz zająć się liniowością i heteroscedastycznością (nierównymi wariancjami) w swoich danych, czy po prostu liniowością.
Zauważa, że przekształcenie danych wpływa zarówno na założenia liniowości, jak i wariancji modelu. Na przykład, jeśli twoje resztki wykazują problemy z obydwoma, możesz rozważyć przekształcenie danych, co potencjalnie może rozwiązać oba. Transformacja przekształca błędy, a tym samym ich wariancję.
Natomiast użycie funkcji link wpływa tylko na założenie liniowości, a nie na wariancję. Log jest pobierany ze średniej (wartości oczekiwanej), a zatem nie ma wpływu na wariancję reszt.
Podsumowując, jeśli nie masz problemu z niestałą wariancją, sugeruje ona użycie funkcji link zamiast transformacji, ponieważ w tym przypadku nie chcesz zmieniać swojej wariancji (już spełniasz założenie).
źródło
Jeśli prawdziwa odpowiedź nie jest symetryczna (nie rozkłada się normalnie), ale odpowiedź transformowana logarytmicznie jest normalna, wówczas stosuje się regresję liniową po transformacji odpowiedzi, a współczynnik wykładniczy daje nam stosunek średniej geometrycznej.
Jeśli odpowiedź jest symetryczna (rozkład normalny), ale zależność między wyjaśnieniem (X) a odpowiedzią nie jest liniowa, ale log oczekiwana wartość jest funkcją liniową X, wówczas należy zastosować GLM z logarytmem i współczynnik wykładniczy daje nam stosunek średniej arytmetycznej
źródło