Moja zmienna zależna pokazana poniżej nie pasuje do żadnej znanej mi dystrybucji. Regresja liniowa wytwarza nieco nienormalne, wypaczone w prawo resztki, które w dziwny sposób odnoszą się do przewidywanego Y (drugi wykres). Wszelkie sugestie dotyczące transformacji lub innych sposobów uzyskania najbardziej aktualnych wyników i najlepszej dokładności predykcyjnej? Jeśli to możliwe, chciałbym uniknąć niezdarnego podziału na kategorie, powiedzmy, 5 wartości (np. 0, lo%, med%, hi%, 1).
25
Odpowiedzi:
Metody regresji ocenzurowanej mogą obsługiwać takie dane. Zakładają, że reszty zachowują się jak w zwykłej regresji liniowej, ale zostały zmodyfikowane w taki sposób
(Lewa cenzura): wszystkie wartości mniejsze niż dolny próg, który jest niezależny od danych (ale może różnić się w zależności od przypadku), nie zostały określone ilościowo; i / lub
(Właściwa cenzura): wszystkie wartości większe niż wysoki próg, który jest niezależny od danych (ale może różnić się w zależności od przypadku), nie zostały określone ilościowo.
„Nieokreślony” oznacza, że wiemy, czy wartość spada poniżej (lub powyżej) progu, ale to wszystko.
Metody dopasowania zazwyczaj wykorzystują maksymalne prawdopodobieństwo. Gdy model odpowiedzi odpowiadającej wektorowi X jest w formieY X
z iid o wspólnym rozkładzie F σ z PDF f σ (gdzie σ są nieznanymi „parametrami uciążliwymi”), to - przy braku cenzury - logarytmiczne prawdopodobieństwo obserwacji ( x i , y i ) wynosiε Fσ fσ σ (xi,yi)
Z censoring występuje, można podzielić na trzy przypadki (ewentualnie puste) klasy: indeksów do n 1 , z Y i zawiera na dolny próg wartości i stanowią pozostawione uciętych danych; indeksów i = N 1 + 1 do N 2 , z Y i określono ilościowo; a dla pozostałych indeksów y i zawierają górne wartości progowe i reprezentują prawą cenzuręi=1 n1 yi i=n1+1 n2 yi yi dane. Prawdopodobieństwo dziennika jest uzyskiwane w taki sam sposób, jak poprzednio: jest to dziennik iloczynu prawdopodobieństw.
Jest to maksymalizowane numerycznie jako funkcja(β,σ)
Z mojego doświadczenia wynika, że takie metody mogą działać dobrze, gdy cenzuruje się mniej niż połowę danych; w przeciwnym razie wyniki mogą być niestabilne.
Oto prosty
R
przykład z wykorzystaniemcensReg
pakietu do zilustrowania, jak OLS i wyniki ocenzurowane mogą się różnić (bardzo dużo) nawet przy dużej ilości danych. Jakościowo odtwarza dane w pytaniu.Użyjmy obu
lm
icensReg
dopasuj linię:Podane przez wyniki regresji ocenzurowanej
print(fit)
sąPodane przez OLS dopasowanie
print(fit.OLS)
tosummary
Dla porównania ograniczmy regresję do danych ilościowych:
Nawet gorzej!
Kilka zdjęć podsumowuje sytuację.
źródło
Czy wartości są zawsze między 0 a 1?
Jeśli tak, możesz rozważyć dystrybucję wersji beta i regresję wersji beta.
Pamiętaj jednak o przemyśleniu procesu prowadzącego do twoich danych. Możesz również zrobić model z napompowaniem 0 i 1 (0 modeli z napompowaniem jest powszechnych, prawdopodobnie prawdopodobnie musiałbyś przedłużyć do 1 napompowanego przez ciebie samego). Duża różnica polega na tym, że te skoki reprezentują dużą liczbę dokładnych zer i jedynek lub tylko wartości zbliżone do 0 i 1.
Najlepiej skonsultować się z lokalnym statystykem (z umową o nieujawnianiu, aby omówić szczegóły skąd pochodzą dane), aby wypracować najlepsze podejście.
źródło
Zgodnie z radą Grega Snowa słyszałem, że modele beta są również przydatne w takich sytuacjach (patrz Smithson i verkuilen, 2006, A Better Lemon Squeezer ), a także regresji kwantowej ( Bottai i in., 2010 ), ale te wydają się być tak wyraźnymi efektami podłogi i sufitu, że mogą być nieodpowiednie (szczególnie regresja beta).
Inną alternatywą byłoby rozważenie typów modeli regresji ocenzurowanej, w szczególności modelu Tobita , w którym uważamy, że zaobserwowane wyniki są generowane przez pewną ukrytą zmienną ukrytą, która jest ciągła (i przypuszczalnie normalna). Nie powiem, że ten ciągły model leżący u podstaw jest rozsądny, biorąc pod uwagę histogram, ale możesz znaleźć pewne wsparcie dla niego, ponieważ widzisz, że rozkład (ignorowanie podłogi) ma wyższą gęstość przy niższych wartościach instrumentu i powoli zmniejsza się do wyższych wartości.
Powodzenia, że cenzura jest tak dramatyczna, że trudno sobie wyobrazić odzyskanie bardzo przydatnych informacji w ekstremalnych zasobach. Wygląda mi na to, że prawie połowa twojej próbki mieści się w pojemnikach podłogowych i sufitowych.
źródło