W większości przypadków, gdy ludzie mówią o transformacjach zmiennych (zarówno dla zmiennych predykcyjnych, jak i zmiennych odpowiedzi), dyskutują o sposobach leczenia skośności danych (takich jak transformacja logów, transformacja box i Cox itp.). Nie jestem w stanie zrozumieć, dlaczego usuwanie skośności jest uważane za tak powszechną najlepszą praktykę? W jaki sposób skośność wpływa na wydajność różnych rodzajów modeli, takich jak modele oparte na drzewach, modele liniowe i modele nieliniowe? Na jakie modele bardziej wpływa skośność i dlaczego?
16
Odpowiedzi:
Podczas usuwania skośności transformacje próbują sprawić, aby zestaw danych podążał za rozkładem Gaussa. Powodem jest po prostu to, że jeśli zbiór danych można przekształcić tak, aby był statystycznie wystarczająco zbliżony do zbioru danych Gaussa, wówczas można użyć największego możliwego zestawu narzędzi. Testy takie jak ANOVA, test, F- test i wiele innych zależą od danych o stałej wariancji ( σ 2 ) lub według rozkładu Gaussa. 1t F σ2
Istnieją modele, które są bardziej wytrzymałe 1 (takie jak przy użyciu testu Levine'a zamiast Test Bartletta), ale większość testów i modeli, które pracują dobrze z innymi dystrybucjami wymagające, że wiesz, co dystrybucja Ci się pracuje z i zazwyczaj są właściwe tylko dla jednego dystrybucji także.
Cytując Podręcznik Inżynierii NIST :
i w innym miejscu
źródło
Dotyczy to głównie modeli parametrycznych. Jak powiedział Tavrock, posiadanie zmiennej odpowiedzi, która nie jest przekrzywiona, sprawia, że przybliżenie Gaussa estymacji parametrów działa lepiej, ponieważ rozkład symetryczny zbiega się znacznie szybciej niż przekrzywienie do Gaussa. Oznacza to, że jeśli wypaczyłeś dane, ich przekształcenie sprawi, że mniejszy zestaw danych będzie najmniej przydatny przy stosowaniu odpowiednio przedziałów ufności i testów parametrów (przedziały prognozowania nadal nie będą ważne, ponieważ nawet jeśli twoje dane są teraz symetryczne, nie możesz powiedzieć to normalne, tylko szacunki parametrów będą zbieżne do Gaussa).
Cała mowa dotyczy warunkowego rozkładu zmiennej odpowiedzi, można powiedzieć: o błędach. Niemniej jednak, jeśli masz zmienną, która wydaje się wypaczona, gdy spojrzysz na jej bezwarunkowy rozkład, może to prawdopodobnie oznaczać, że ma ona wypaczony rozkład warunkowy. dopasowanie modelu do danych oczyści Cię z tego.
W drzewach decyzyjnych najpierw wskażę jedną rzecz: nie ma sensu przekształcać wypaczonych zmiennych objaśniających, funkcje monotoniczne nic nie zmienią; może to być przydatne w modelach liniowych, ale nie dotyczy drzew decyzyjnych. To powiedziawszy, modele CART wykorzystują analizę wariancji do wykonania pluć, a wariancja jest bardzo sensowna dla wartości odstających i wypaczonych danych, dlatego transformacja zmiennej odpowiedzi może znacznie poprawić dokładność modelu.
źródło
Uważam, że jest to w dużej mierze artefakt tradycji powrotu do Gaussów ze względu na ich miłe właściwości.
Ale istnieją ładne alternatywy dystrybucyjne, np. Uogólniona gamma, która obejmuje wiele różnych wypaczonych kształtów i form dystrybucyjnych
źródło
Jak powiedzieli inni czytelnicy, pomocne byłoby trochę więcej informacji na temat tego, co planujesz osiągnąć dzięki swoim danym.
To powiedziawszy, istnieją dwie ważne doktryny w dziedzinie statystyki znanej jako centralne twierdzenie graniczne i prawo wielkich liczb . To znaczy, że im więcej obserwacji, tym bardziej zbiór danych ma aproksymować rozkład normalny , taki o równej średniej, medianie i trybie. Zgodnie z prawem dużych liczb, oczekuje się, że odchylenie między wartością oczekiwaną a rzeczywistą ostatecznie spadnie do zera przy wystarczających obserwacjach.
Dlatego rozkład normalny pozwala badaczowi dokładniej przewidywać populację, jeśli znany jest rozkład podstawowy.
Skośność występuje wtedy, gdy rozkład odbiega od tego, tzn. Odchylenie może być dodatnie lub ujemne. Jednak centralne twierdzenie graniczne dowodzi, że biorąc pod uwagę wystarczająco duży zestaw obserwacji, wynikiem będzie rozkład w przybliżeniu normalny. Jeśli więc rozkład nie jest normalny, zawsze zaleca się zebranie większej ilości danych przed próbą zmiany podstawowej struktury rozkładu za pomocą wspomnianych procedur transformacji.
źródło
Kiedy skośność jest czymś złym? Rozkłady symetryczne (ogólnie, ale nie zawsze: np. Nie dla rozkładu Cauchy'ego) mają medianę, tryb i średnią bardzo blisko siebie. Zastanów się, czy chcemy zmierzyć lokalizację populacji, warto mieć medianę, tryb i średnią blisko siebie.
Na przykład, jeśli weźmiemy logarytm podziału dochodu , zmniejszamy na tyle skośność, że możemy uzyskać użyteczne modele lokalizacji dochodu. Jednak nadal będziemy mieć cięższy prawy ogon, niż naprawdę chcemy. Aby jeszcze bardziej to zmniejszyć, możemy użyć dystrybucji Pareto . Rozkład Pareto jest podobny do transformacji danych w dzienniku. Teraz zarówno rozkłady Pareto, jak i logarytmiczne mają trudności na dolnym końcu skali dochodów. Na przykład oboje cierpią z powoduln0 = - ∞ . Rozwiązanie tego problemu obejmuje transformacje mocy .
Przykład z 25 dochodów w kilogramach dolarów skradzionych ze strony www.
Skośność pierwszej kolumny wynosi 0,99, a drugiej wynosi -0,05. Pierwsza kolumna prawdopodobnie nie jest normalna (Shapiro-Wilk p = 0,04), a druga nie jest znacząco nienormalna (p = 0,57).
Pytanie brzmi zatem: jeśli jesteś osobą losową, która ma jeden z zarobków, jakie możesz zarobić? Czy uzasadnione jest stwierdzenie, że zarobiłbyś 90 tys. Lub więcej niż mediana 84 tys.? A może bardziej prawdopodobne jest stwierdzenie, że nawet mediana jest tendencyjna jako miara lokalizacji i żeexp[ znaczy ln( k $ ) ] 76,7 k, czyli mniej niż mediana, jest również bardziej uzasadniony jako szacunek?
Oczywiście log-norma tutaj jest lepszym modelem, a średni logarytm daje nam lepszą miarę lokalizacji. To, że jest to dobrze znane, o ile nie do końca zrozumiane, ilustruje zwrot „Przewiduję uzyskanie pięciocyfrowej pensji”.
źródło
Większość wyników opiera się na założeniach Gaussa. Jeśli masz przekrzywiony rozkład, nie masz rozkładu Gaussa, więc może powinieneś desperacko spróbować przekształcić go w to.
Ale oczywiście możesz spróbować z GLM.
źródło
Myślę, że to nie tylko modelowanie, ale nasze mózgi nie są przyzwyczajone do pracy z mocno wypaczonymi danymi. Na przykład w finansach behawioralnych wiadomo, że nie jesteśmy dobrzy w szacowaniu bardzo niskiego lub wysokiego prawdopodobieństwa.
źródło