Jaki może być powód zastosowania transformacji pierwiastka kwadratowego w danych?

15

Czy istnieje jakiś powód tego, co mogę wymyślić, aby przekształcić dane pierwiastkiem kwadratowym? Chodzi mi o to, że zawsze obserwuję wzrost R ^ 2. Ale to prawdopodobnie tylko z powodu centrowania danych! Każda myśl jest doceniana!

MarkDollar
źródło
Odpowiedziałem na to pytanie i na bardziej ogólne pytanie tutaj stats.stackexchange.com/questions/18844/…
IrishStat
3
Jeśli zmienna zależna jest inna, kwadraty R nie mogą być porównywane.

Odpowiedzi:

13

Ogólnie regresja parametryczna / GLM zakłada, że ​​związek między zmienną a każdym XYX zmienną jest liniowy, że reszty po dopasowaniu modelu mają rozkład normalny i że wielkość reszt pozostaje prawie taka sama wzdłuż dopasowanej linii. Gdy Twoje dane nie są zgodne z tymi założeniami, transformacje mogą pomóc.

Powinno być intuicyjne, że jeśli jest proporcjonalne do X 2, to ukorzenienie kwadratowe Y linearyzuje tę zależność, prowadząc do modelu, który lepiej pasuje do założeń i który tłumaczy większą wariancję (ma wyższą R 2 ). Rootowanie kwadratowe Y pomaga również wtedy, gdy masz problem, że rozmiar twoich reszt stopniowo wzrasta, gdy twoje wartości XYX2YR2YXwzrost (tzn. rozproszenie punktów danych wokół dopasowanej linii staje się bardziej zaznaczone w miarę przesuwania się wzdłuż niej). Pomyśl o kształcie funkcji pierwiastka kwadratowego: najpierw rośnie gwałtownie, ale potem nasyca się. Zatem zastosowanie przekształcenia pierwiastka kwadratowego powoduje napompowanie mniejszych liczb, ale stabilizuje większe. Możesz więc pomyśleć o tym, że odsuwa małe reszty przy niskich wartościach od dopasowanej linii i wyciska duże reszty przy wysokich wartościach X w kierunku linii. (To jest skrót mentalny, a nie właściwa matematyka!)XX

Jak mówią Dmitrij i ocram, jest to tylko jedna możliwa transformacja, która pomoże w pewnych okolicznościach, a narzędzia takie jak formuła Box-Cox mogą pomóc ci wybrać najbardziej przydatną. Radziłbym przyzwyczaić się do tego, aby zawsze patrzeć na wykresy reszt w porównaniu z dopasowanymi wartościami (a także normalny wykres prawdopodobieństwa lub histogram reszt) po dopasowaniu modelu. Przekonasz się, że często będziesz w stanie zobaczyć z tego, jaka transformacja pomoże.

Freya Harrison
źródło
Hej dzięki! Znam funkcję boxcox, ale zastanawiałem się, z jakich praktycznych powodów transformacja sqrt ma sens! Dziękuję Ci!
MarkDollar
1
jeśli wariancja błędów jest liniowo powiązana z poziomem szeregu, przyjmuje się transformację logarytmiczną. Jeśli odchylenie standardowe jest liniowo powiązane z poziomem szeregu, przyjmuje się transformację pierwiastkową. Wybór nie ma nic wspólnego z rozmiarem reszt, ponieważ odnosi się do poziomu y, a wszystko dotyczy sprzężenia / rozprzężenia pierwszego i drugiego momentu.
IrishStat
1
Freya, +1 za stenogram mentalny >> właściwe matematyki. Czy ta intuicja jest również powodem do używania wskaźników L.5 do klastrowania ?
denis
Cześć Denis, obawiam się, że nie wiem nic o klastrowaniu.
Freya Harrison
10

λ=0.5

yN(Xβ,σ2In)

Jednak ta stała wartość z góry może być (i prawdopodobnie nie jest) optymalna. W R możesz rozważyć funkcję z carbiblioteki, powerTransformktóra pomaga oszacować optymalną wartość transformacji Box-Coxa dla każdej ze zmiennych uczestniczących w regresji liniowej lub dowolnych danych, z którymi pracujesz (zobacz example(powerTransform)dalsze szczegóły).

Dmitrij Celov
źródło
5

Gdy zmienna podąża za rozkładem Poissona, wyniki przekształcenia pierwiastka kwadratowego będą znacznie bliższe Gaussa.

Harvey Motulsky
źródło
Czy możesz podać jakieś argumenty za tym roszczeniem?
utdiscant
Naprawdę niewiele pomaga w indywidualnym rozkładzie z określoną wartością parametru, ale sprawia, że rodzina rozkładu uzyskana, gdy parametr się zmienia, jest bliższa normalnej rodzinie ze stałą zmiennością
kjetil b halvorsen
3

Często zaleca się stosowanie pierwiastka kwadratowego, aby zmienna nienormalna wyglądała jak zmienna normalna w problemach z regresją. Logarytm jest kolejną powszechną możliwą transformacją.

ocram
źródło
0

Macierz odległości obliczona za pomocą Bray-Curtisa zwykle nie jest metryczna dla niektórych danych, co powoduje powstanie ujemnych wartości własnych. Jednym z rozwiązań tego problemu jest transformacja (logarytmiczna, pierwiastek kwadratowy lub podwójny pierwiastek kwadratowy).

Ahmed Nur Osman
źródło