Czy istnieje (silniejsza?) Alternatywa dla transformacji pierwiastka kwadratowego arcsin dla danych procentowych / procentowych? W zbiorze danych, nad którym obecnie pracuję, znacząca heteroscedastyczność pozostaje po zastosowaniu tej transformacji, tj. Wykres wartości resztowych w stosunku do dopasowanych wartości jest nadal bardzo romboidalny.
Edytowane, aby odpowiedzieć na komentarze: dane są decyzjami inwestycyjnymi uczestników eksperymentalnych, którzy mogą zainwestować 0-100% wyposażenia w wielokrotności 10%. Patrzyłem również na te dane przy użyciu porządkowej regresji logistycznej, ale chciałbym zobaczyć, co wytworzyłby prawidłowy glm. Ponadto widziałem, że odpowiedź jest przydatna w przyszłych pracach, ponieważ pierwiastek kwadratowy arcsin wydaje się być stosowany jako rozwiązanie uniwersalne w mojej dziedzinie i nie spotkałem się z żadną alternatywą.
źródło
Odpowiedzi:
Pewnie. John Tukey opisuje rodzinę (rosnących, jeden do jednego) przekształceń w EDA . Opiera się na tych pomysłach:
Aby móc wysunąć ogony (w kierunku 0 i 1) zgodnie z parametrem.
Niemniej jednak, aby dopasować oryginalne (nietransformowanych) wartości w pobliżu środka (1/2 ), co sprawia, że transformacja łatwiejsze do interpretacji.
Aby Symetryczny ponownego Wyrażenie około1/2. To znaczy, jeśli p jest ponownie wyrażono jako fa( p ) , a następnie 1 - p zostanie ponownie wyrażono jako - f( p ) .
Jeśli zaczynasz z każdym wzrostem monotonicznego funkcjisol: ( 0 , 1 ) → R różniczkowalnej na 1 / 2 można dostosować go do spełnienia kryteriów drugie i trzecie: wystarczy zdefiniować
Licznik jest wyraźnie symetryczne (kryterium(3) ), ponieważ wymiany p o 1−p odwraca odejmowanie, przez co można go. Aby zapoznać się z (2) jest spełniony, Należy zauważyć, że mianownik jest dokładnie potrzebne, aby współczynnik f′(1/2)=1. przypomnieć, że jest w przybliżeniu pochodne lokalna Zachowanie funkcji z funkcją liniową; nachylenie 1=1:1 oznacza zatem, że f(p)≈p (plus stała −1/2 ), gdy p jest dostatecznie blisko 1/2. Jest to sens, w którym oryginalne wartości są „dopasowane w pobliżu środka.”
Tukey nazywa to „złożoną” wersjąg . Jego rodzina składa się z transformacji mocy i logarytmu g(p)=pλ gdzie, gdy λ=0 , rozważamy g(p)=log(p) .
Spójrzmy na kilka przykładów. Gdyλ=1/2 otrzymujemy złożony korzenie lub "Froot" f(p)=1/2−−−√(p–√−1−p−−−−√) . Kiedyλ=0 mamy logarytm złożony, czyli „flog”,f(p)=(log(p)−log(1−p))/4. Oczywiście jest to tylko stała wielokrotnośćtransformacjilogit,log(p1−p) .
Na tym wykresie odpowiada niebieska linia naλ=1 , pośrednia linia czerwona do λ=1/2 , a linia zielona do skrajnego λ=0 . Linia przerywana złota jest transformacją arcsine, arcsin(2p−1)/2=arcsin(p–√)−arcsin(1/2−−−√) . „Porównywaniu” tras (kryterium,(2) ) powoduje, że wszystkie wykresy zbiegają się w pobliżup=1/2.
Najbardziej przydatne wartości parametruλ wynoszą od 1 do 0 . (Można zrobić nawet cięższe ogony z ujemnymi wartościami λ , ale to zastosowanie jest rzadkością.) λ=1 ma w ogóle nic nie robić oprócz Wyśrodkuj wartości ( f(p)=p−1/2 ). Gdy λ kurczy się w kierunku zera, ogony są przyciągane dalej w kierunku ±∞ . Spełnia to kryterium nr 1. Tak więc, wybierając odpowiednią wartość λ , możesz kontrolować „siłę” tego ponownego wyrażania w ogonach.
źródło
Jednym ze sposobów włączenia jest włączenie transformacji indeksowanej. Jednym z ogólnych sposobów jest użycie dowolnej symetrycznej (odwrotnej) skumulowanej funkcji rozkładu, tak aby i F ( x ) = 1 - F ( - x ) . Jednym z przykładów jest standardowy rozkład t-studenta z ν stopniami swobody. Parametr v kontroluje, jak szybko transformowana zmienna wędruje w nieskończoność. Jeśli ustawisz v = 1 , masz transformatę Arctana:F(0)=0.5 F(x)=1−F(−x) ν v v=1
Jest to o wiele bardziej ekstremalne niż arcsine i bardziej ekstremalne niż transformacja logit. Zauważ, że transformata logit może być z grubsza przybliżona przy użyciu rozkładu t z . SO w jakiś sposób zapewnia przybliżone powiązanie między transformacjami logit i probit ( ν = ∞ ) oraz ich rozszerzenie na bardziej ekstremalne transformacje.ν≈8 ν=∞
Problem z tymi transformacjami polega na tym, że dają one gdy zaobserwowana proporcja jest równa 1 lub 0 . Musisz je jakoś zmniejszyć - najprostszym sposobem jest dodanie + 1 „sukcesów” i + 1 „niepowodzeń”.±∞ 1 0 +1 +1
źródło