Dlaczego transformacja pierwiastka kwadratowego jest zalecana dla danych zliczania?

57

Często zaleca się, aby wziąć pierwiastek kwadratowy, gdy zliczasz dane. (Aby zapoznać się z niektórymi przykładami CV, patrz odpowiedź @ Harveya Motulsky'ego tutaj lub odpowiedź @ whubera tutaj .) Z drugiej strony, podczas dopasowywania uogólnionego modelu liniowego ze zmienną odpowiedzi rozmieszczoną jako Poisson, log jest łącznikiem kanonicznym . Jest to coś w rodzaju transformacji logu danych odpowiedzi (chociaż dokładniej transformacja logu , parametru rządzącego rozkładem odpowiedzi). Tak więc istnieje między nimi napięcie. λ

  • Jak pogodzić tę (pozorną) rozbieżność?
  • Dlaczego pierwiastek kwadratowy byłby lepszy od logarytmu?
gung - Przywróć Monikę
źródło

Odpowiedzi:

45

Pierwiastek kwadratowy w przybliżeniu stabilizuje wariancję dla Poissona . Istnieje wiele odmian pierwiastka kwadratowego, które poprawiają właściwości, na przykład dodanie 38 przed obliczeniem pierwiastka kwadratowego lubFreeman-Tukey(X+X+1 - choć często jest również dostosowywany do średniej).

wprowadź opis zdjęcia tutaj

Transformacja pierwiastka kwadratowego nieco poprawia symetrię - choć nie tak dobrze jak 23 moc ma [1]:

wprowadź opis zdjęcia tutaj

Jeśli szczególnie zależy ci na prawie normalności (o ile parametr Poissona nie jest naprawdę mały) i nie przejmujesz się / nie możesz dostosować się do heteroscedastyczności, spróbuj 23

y=log(y+c)0c0.40.5μ120.43

Co do tego, dlaczego ludzie wybierają jedną transformację nad drugą (lub żadną) - tak naprawdę jest to kwestia tego, co robią, aby to osiągnąć.

[1]: Wykresy wzorowane na wykresach Henrika Bengtssona w jego ulotce „Uogólnione modele liniowe i transformowane reszty” patrz tutaj (patrz pierwszy slajd na p4). Dodałem trochę jittera i pominąłem wiersze.

Glen_b
źródło
1
(0,+)(,+)λ
2
Xy
1
+1 Pierwiastek kwadratowy jest zaledwie punktem wyjścia do radzenia sobie z danymi zliczania. Logarytm jest również dobrym wyborem. Dane często mówią, który z nich jest bardziej skuteczny w uzyskiwaniu użytecznego i zwięzłego opisu. Gung, w odpowiedzi, na którą powołujesz się , wykazanie, że pierwiastek kwadratowy był dobrym wyborem, polega na symetrycznym rozkładzie niepozostających resztek widocznych na rysunku po prawej stronie. Po zmianie parametrów symulacji okaże się, że zachowana jest symetria.
whuber
1
@Glen Nie powiedziałem, że logi są zawsze dobrym wyborem. Ale czasami są lepsze od korzeni. Kiedy pojawi się zero, wtedy tak, potrzebujesz logarytmu „uruchomionego” . W innych wątkach omówiono sposoby uzyskania wartości początkowej . Gdy w danych nie ma zerowych zliczeń, nie będzie żadnych problemów z logami.
whuber
2
x+3/8xx+ccx+3/8