Czy są -te przekształcenia katalogu głównego?

12

Mój kolega chce przeanalizować niektóre dane po przekształceniu zmiennej odpowiedzi przez podniesienie jej do potęgi (to znaczy ). i0,12518y0,125

Nie czuję się z tym komfortowo, ale próbuję wyjaśnić, dlaczego. Nie mogę wymyślić żadnego mechanistycznego uzasadnienia tej transformacji. Nigdy wcześniej tego nie widziałem i martwię się, że być może podwyższa to poziom błędów typu I czy coś takiego - ale nie mam nic na poparcie tych obaw!

Ponadto mój kolega stwierdza, że ​​te przekształcone modele przewyższają modele nietransformowane w porównaniu z AIC. Czy to samo w sobie uzasadnia jego użycie?

AndrewMacDonald
źródło
9
Tylko fyi, wygląda bardzo podobnie do dla wielu zakresów . Transformacja logów jest często uzasadniona w wielu przypadkach (ale także często stosowana w nieuzasadnionych przypadkach). y1/8ylog(y)y
Cliff AB
2
To jest związana dyskusja
użytkownik603
5
Nie można w sposób znaczący porównać AIC między modelami z transformowanymi zmiennymi zależnymi. (Przekształcanie zmiennej niezależnej jest w porządku.)
Stephan Kolassa
5
@CliffAB ma rację. Główną praktyczną różnicą między małymi mocami dodatnimi a logarytmem jest to, że możesz przyjmować moce zerowe. Gdy w danych jest kilka zer (być może z powodu niedokładności sposobu rejestrowania liczb), czasami mała moc (0,1 lub nawet 0,01) działa jako zamiennik logarytmu. (Jeszcze lepiej: użyj transformacji Box-Coxa dla małych .) Ponieważ bardzo niewiele praw naturalnych wiąże się z siłą 1/8, a wiele z nich obejmuje zjawiska wykładnicze, użycie dziennika może czasami zapewniają lepszy wgląd i interpretację niż mała moc. py=(xp-1)/pp
whuber
3
To mały riff na temat tego, że ta transformacja może zastąpić logarytmy, jeśli wystąpią zera. Logarytmiczne powiązanie uogólnionych modeli liniowych mówi, że średnie odpowiedzi różnią się wykładniczo, ale nie zakłada, że ​​wszystkie ich wartości są dodatnie. Więc toleruje niektóre zera w danych. Z grubsza implikuje to, że powinny lub byłyby dodatnie, gdyby mogły: np. Zgłoszone zera (zero próbek w próbce, zero stężeń zgodnie z maszyną) czasami oznacza, że ​​nie zostały wykryte. Pomimo swojej cudownej nazwy Box-Cox wydaje się wyprzedany, gdy istnieje naturalny związek w GLM.
Nick Cox,

Odpowiedzi:

10

Powszechną praktyką jest stosowanie transformacji mocy (Tukey, Box-Cox) z dowolnymi wartościami w odpowiedzi. Z tej perspektywy nie widzę szczególnej troski o twoją wartość 1/8 - jeśli ta transformacja daje ci dobre resztki, idź.

Oczywiście, każda transformacja zmienia zależność funkcjonalną, którą pasujesz, i może być tak, że 1/8 nie ma mechanistycznego sensu, ale nie byłoby to dla mnie problemem, gdy celem nie jest ekstrapolacja lub dopasowanie parametrów fizycznych prawo, ale aby uzyskać odpowiednią wartość p na znaku efektu (argumentowałbym, że to normalny przypadek użycia w regresji). W tym celu jedynym problemem jest to, że funkcja pasuje do danych w dziedzinie wartości predyktorów (wrt średnia i zmienność resztkowa) i łatwo ją sprawdzić.

Jeśli nie masz pewności co do najlepszej wartości transformacji mocy i chcesz porównać różne opcje, nie powinieneś bezpośrednio porównywać wartości AIC / prawdopodobieństwa, ponieważ transformacja mocy zmienia skalę odpowiedzi. Na szczęście okazuje się, że stosunkowo łatwo jest obliczyć poprawkę do transformacji, tak że różne transformacje można porównać na podstawie ich (skorygowanego) prawdopodobieństwa (patrz np. Tutaj ).

W R jest to zaimplementowane w MASS :: boxcox - jest to wygodny sposób na wybór właściwej wartości mocy.

Florian Hartig
źródło