Czy istnieje jakiś powód tego, co mogę wymyślić, aby przekształcić dane pierwiastkiem kwadratowym? Chodzi mi o to, że zawsze obserwuję wzrost R ^ 2. Ale to prawdopodobnie tylko z powodu centrowania danych! Każda myśl jest doceniana!
regression
data-transformation
variance-stabilizing
MarkDollar
źródło
źródło
Odpowiedzi:
Ogólnie regresja parametryczna / GLM zakłada, że związek między zmienną a każdym XY X zmienną jest liniowy, że reszty po dopasowaniu modelu mają rozkład normalny i że wielkość reszt pozostaje prawie taka sama wzdłuż dopasowanej linii. Gdy Twoje dane nie są zgodne z tymi założeniami, transformacje mogą pomóc.
Powinno być intuicyjne, że jeśli jest proporcjonalne do X 2, to ukorzenienie kwadratowe Y linearyzuje tę zależność, prowadząc do modelu, który lepiej pasuje do założeń i który tłumaczy większą wariancję (ma wyższą R 2 ). Rootowanie kwadratowe Y pomaga również wtedy, gdy masz problem, że rozmiar twoich reszt stopniowo wzrasta, gdy twoje wartości XY X2 Y R2 Y X wzrost (tzn. rozproszenie punktów danych wokół dopasowanej linii staje się bardziej zaznaczone w miarę przesuwania się wzdłuż niej). Pomyśl o kształcie funkcji pierwiastka kwadratowego: najpierw rośnie gwałtownie, ale potem nasyca się. Zatem zastosowanie przekształcenia pierwiastka kwadratowego powoduje napompowanie mniejszych liczb, ale stabilizuje większe. Możesz więc pomyśleć o tym, że odsuwa małe reszty przy niskich wartościach od dopasowanej linii i wyciska duże reszty przy wysokich wartościach X w kierunku linii. (To jest skrót mentalny, a nie właściwa matematyka!)X X
Jak mówią Dmitrij i ocram, jest to tylko jedna możliwa transformacja, która pomoże w pewnych okolicznościach, a narzędzia takie jak formuła Box-Cox mogą pomóc ci wybrać najbardziej przydatną. Radziłbym przyzwyczaić się do tego, aby zawsze patrzeć na wykresy reszt w porównaniu z dopasowanymi wartościami (a także normalny wykres prawdopodobieństwa lub histogram reszt) po dopasowaniu modelu. Przekonasz się, że często będziesz w stanie zobaczyć z tego, jaka transformacja pomoże.
źródło
Jednak ta stała wartość z góry może być (i prawdopodobnie nie jest) optymalna. W R możesz rozważyć funkcję z
car
biblioteki,powerTransform
która pomaga oszacować optymalną wartość transformacji Box-Coxa dla każdej ze zmiennych uczestniczących w regresji liniowej lub dowolnych danych, z którymi pracujesz (zobaczexample(powerTransform)
dalsze szczegóły).źródło
Gdy zmienna podąża za rozkładem Poissona, wyniki przekształcenia pierwiastka kwadratowego będą znacznie bliższe Gaussa.
źródło
Często zaleca się stosowanie pierwiastka kwadratowego, aby zmienna nienormalna wyglądała jak zmienna normalna w problemach z regresją. Logarytm jest kolejną powszechną możliwą transformacją.
źródło
Macierz odległości obliczona za pomocą Bray-Curtisa zwykle nie jest metryczna dla niektórych danych, co powoduje powstanie ujemnych wartości własnych. Jednym z rozwiązań tego problemu jest transformacja (logarytmiczna, pierwiastek kwadratowy lub podwójny pierwiastek kwadratowy).
źródło