Myślałem, że rozumiem ten problem, ale teraz nie jestem tego taki pewien i chciałbym skonsultować się z innymi, zanim przejdę dalej.
Mam dwie zmienne X
i Y
. Y
jest stosunkiem i nie jest ograniczony przez 0 i 1 i jest zwykle rozkładem normalnym. X
jest proporcją i jest ograniczony przez 0 i 1 (biegnie od 0,0 do 0,6). Kiedy przeprowadzam regresję liniową Y ~ X
i dowiaduję się o tym X
i Y
są one istotnie liniowo powiązane. Jak na razie dobrze.
Ale potem badam dalej i zaczynam myśleć, że może X
i Y
związek może być bardziej krzywoliniowy niż liniowy. Dla mnie to wygląda relacji X
i Y
może być bliżej Y ~ log(X)
, Y ~ sqrt(X)
lub Y ~ X + X^2
, czy coś takiego. Mam empiryczne powody, aby przypuszczać, że związek może być krzywoliniowy, ale nie ma powodów, aby zakładać, że jakikolwiek jeden nieliniowy związek może być lepszy niż jakikolwiek inny.
Mam tutaj kilka powiązanych pytań. Po pierwsze, moja X
zmienna przyjmuje cztery wartości: 0, 0,2, 0,4 i 0,6. Kiedy loguję lub przekształcam pierwiastek kwadratowy te dane, odstępy między tymi wartościami są zniekształcone, tak że wartości 0 są znacznie dalej od wszystkich innych. Z braku lepszego sposobu zadawania pytań, czy tego właśnie chcę? Zakładam, że tak nie jest, ponieważ otrzymuję bardzo różne wyniki w zależności od akceptowanego poziomu zniekształceń. Jeśli nie tego chcę, jak mam tego uniknąć?
Po drugie, aby przekształcić dane w te dane, muszę dodać pewną wartość do każdej X
wartości, ponieważ nie można przyjąć logarytmu 0. Gdy dodam bardzo małą ilość, powiedzmy 0,001, otrzymuję bardzo znaczne zniekształcenie. Kiedy dodam większą ilość, powiedzmy 1, mam bardzo małe zniekształcenie. Czy istnieje „poprawna” kwota do dodania do X
zmiennej? A może niewłaściwe jest dodawanie czegokolwiek do X
zmiennej zamiast wyboru alternatywnej transformacji (np. Pierwiastek sześcienny) lub modelu (np. Regresja logistyczna)?
To, czego niewiele udało mi się dowiedzieć na ten temat, sprawia, że czuję, że powinienem iść ostrożnie. Dla innych użytkowników R. ten kod utworzyłby niektóre dane o strukturze podobnej do mojej.
X = rep(c(0, 0.2,0.4,0.6), each = 20)
Y1 = runif(20, 6, 10)
Y2 = runif(20, 6, 9.5)
Y3 = runif(20, 6, 9)
Y4 = runif(20, 6, 8.5)
Y = c(Y4, Y3, Y2, Y1)
plot(Y~X)
Odpowiedzi:
Główne pytanie dotyczące przekształcania proporcji (użyję jako symbolu, podobnie, ale nie identycznie do twojej notacji), pozwala na kilka ogólnych komentarzy.x
W dalszej części przyjmuję, że głównym motywem transformacji proporcji, które są współzmienne (predyktory, zmienne niezależne), jest poprawa aproksymacji do liniowości relacji lub, jeśli w trybie eksploracyjnym, aby uzyskać wyraźniejsze graficzne wyobrażenie o kształcie lub istnieniu jakikolwiek związek. Jak zwykle to, czy zmienna towarzysząca jest (np.) W przybliżeniu normalnie rozłożona, nie jest istotne jako takie. (Proporcje są niezbyt odległym krewnym zmiennych wskaźnikowych o wartościach których nigdy nie można normalnie rozłożyć, a także proporcje są koniecznie ograniczone.)0 , 1
Jeśli proporcje mogą osiągnąć dokładne zera lub dokładne, konieczne jest zdefiniowanie transformacji dla tych granic, co wyraźnie wyklucza , ponieważ log 0 jest nieokreślony. Poza tym konkretny kształt idealnie wymaga uzasadnienia merytorycznego (naukowego, praktycznego), ale brakuje w nim prostej analizy, że log ( x + c ) jest bardzo wrażliwy na wartość c , jak sugerujesz.logx log0 log( x + c ) do
Jest to trochę łatwiejsze do zauważenia przy logarytmach do podstawy , więc tymczasowo rozważmy c = 10 k , aby log 10 ( x + 10 k ) odwzorował x = 0 na k .10 c = 10k log10(x+10k) x=0 k
Stąd odwzorowuje x = od 0 do 0 i x = 1 do około 0,301 , podczas gdy k = - 3 , c = 0,001 odwzorowuje x = od 0 do - 3, a x = 1 tylko do smidgenu większego niż 0 .k=0,c=1 x=0 0 x=1 0.301 k=−3,c=0.001 x=0 −3 x=1 0
Podobnie, cokolwiek oznacza, że 0 jest odwzorowane na te same granice, podczas gdy dla coraz lepszego przybliżenia x = 1 jest odwzorowane na 0 .k=−6,−9, 0 x=1 0
Tak więc dolna granica jest rozciągana na zewnątrz z coraz mniejszymi dodanymi stałymi , podczas gdy górna granica pozostaje mniej więcej taka sama. Takie przekształcenia mogą zatem nadmiernie rozciągać dolną część zakresu, a nawet tworzyć wartości odstające od bardzo małych wartości równych lub bliskich zeru .c 0
Po prostu ludzie sugerujący to prawdopodobnie wyobrażają sobie, że (teraz do dowolnej bazy, którą lubisz) powinien zachowywać się bardzo podobnie do log x dla małego c , co jest wyraźnie prawdziwe dla dużego x , ale wcale nie jest prawdziwe dla małego x . Innymi słowy, bardziej strome i większe nachylenie log x w funkcji x, ponieważ x ↓ 0 może tutaj ugryźć bardzo mocno.log(x+c) logx c x x logx x x↓0
Wydaje się, że lepiej skupić się na transformacjach, które różnią się bardziej stopniowo w pobliżu i (z innych, ale powiązanych powodów) również w pobliżu x = 1 .x=0 x=1
Pierwiastki kwadratowe i pierwiastki sześcianu i inne potęgi są doskonale dobrze zdefiniowane dla x = 0 , 1 i często pomagają, gdy zachodzi potrzeba rozciągnięcia wartości w pobliżu 0 . Ale te transformacje są dobrze znane i skupiam się tutaj bardziej na innej możliwości.xp x=0,1 0
Rodzina złożonych mocy spopularyzowana przez JW Tukeya ( Exploratory Data Analysis , Reading, MA: Addison-Wesley, 1977) jest jedną z możliwości i wynosi . Chociaż nie ma przymusu, aby wybrać uprawnienia, które umożliwiają proste nazwy sugestywne, wybory p = 1 / 2 (złożona root) i p = 1 / 3 (złożona pierwiastek) wydaje się najbardziej użytecznych członków tej rodziny.xp−(1−x)p p=1/2 p = 1 / 3
Rodzina przypomina znaną transformację i rzeczywiście logit jest ograniczającym przypadkiem, ponieważ p dąży do 0 . Kluczową różnicą jest to, że siły złożone są zdefiniowane dla x = 0 , 1 i p ≠ 0 .logit x = log x - log( 1 - x ) p 0 x = 0 , 1 p ≠ 0
Moce złożone, w tym teraz logit, traktują ekstremalne przypadki w pobliżu i 1 skośno-symetrycznie i wykreślają jako odwrotne krzywe sigmoidalne (niektóre wykresy poniżej) mieszając zachowanie addytywne i multiplikatywne, powtarzając często jakościowe (jeśli nie fizyczne, biologiczne, ekonomiczne, cokolwiek) fakty leżące u podstaw zjawiska, które0 1
różnica od powiedzmy do 0,02 może być „wielką sprawą” (oczywiście, x zmienia się tylko o 0,01 , ale podwaja się)0,01 0,02 x 0,01
różnica między powiedzmy a 0,99 może być również „wielką sprawą” (oczywiście, x zmienia się tylko o 0,01 , ale „ułamek bez” 1 - x również o połowę)0,98 0,99 x 0,01 1 - x
różnica od powiedzmy do 0,51 może być „mniejszą transakcją” (oczywiście x zmienia się również o 0,01 , ale zmiana proporcjonalna jest znacznie mniejsza)0,50 0,51 x 0,01
Być może najłatwiej jest pomyśleć, kiedy wyobrażamy sobie jakąś podstawową dynamikę: rosnąca część powiedzmy, że ludzie piśmienni potrzebują dużego nacisku, aby zacząć, przyspiesza, a następnie zwalnia, gdy zbliża się do asymptoty powszechnej umiejętności czytania. Krzywa w czasie może więc przypominać rosnącą lub malejącą logistykę. Fakt, że do proporcji i 1 dochodzi się wolniej lub bardziej, jest naturalnie jedną z kilku motywacji dla logit i podobnych modeli dla proporcjonalnych odpowiedzi; chociaż koncentrujemy się tutaj na współzmiennych proporcjonalnych, sigmoidy mogą być również przydatne tutaj.0 1
Składane moce, takie jak składany korzeń lub pierwiastek kostki, nie są tak silnie sigmoidalne jak logit, ale cenną zaletą jest ich bezpośrednie i łatwe zdefiniowanie bez krówek, kludów i szturchańców dla .x = 0 , 1
Przechodząc do twojego fałszywego, ale z pozoru realistycznego zestawu danych (który zaimportowałem do mojego ulubionego oprogramowania, ale analiza jest prosta w jakiejkolwiek przyzwoitej formie), okazuje się, że żadna z tych transformacji w ogóle nie pomaga. Ale wykresowanie danych daje wyraźne ostrzeżenie, że nawet jest potężną silną transformacją, co można zobaczyć również poprzez bezpośrednie wykreślenie.log( x + 0,001 )
Dwie główne kwestie, o których chciałbym wspomnieć, to:
W przypadku przykładowych danych żadna transformacja, której próbowałem, nie wydaje się pomóc.
Jednocześnie inne możliwości nie są jeszcze wyczerpane. (W szczególności nie próbowałem pierwiastka kwadratowego ani pierwiastka sześcianu i podkreślam, że w wielu innych problemach mogą to być oczywiste i poważne kandydatury).
EDYCJA: Oryginalne dane mogą być wykreślone tutaj, ponieważ PO krótko opublikował dane, ale później je usunął.
Inne wątki wykorzystujące złożone siły to
Przekształcanie danych proporcji: gdy pierwiastek kwadratowy arcsin nie wystarczy
Regresja: Wykres rozproszenia z niskimi do kwadratu R i wysokimi wartościami p
Wykreśl mocno wypaczony zestaw danych
źródło
Y
stosunek jest raczej proporcją niż proporcją, co jest prawdopodobnie dość znaczną różnicą, więc dobrze, że zwróciłeś na to uwagę.