Dlaczego zniekształcone dane nie są preferowane do modelowania?

16

W większości przypadków, gdy ludzie mówią o transformacjach zmiennych (zarówno dla zmiennych predykcyjnych, jak i zmiennych odpowiedzi), dyskutują o sposobach leczenia skośności danych (takich jak transformacja logów, transformacja box i Cox itp.). Nie jestem w stanie zrozumieć, dlaczego usuwanie skośności jest uważane za tak powszechną najlepszą praktykę? W jaki sposób skośność wpływa na wydajność różnych rodzajów modeli, takich jak modele oparte na drzewach, modele liniowe i modele nieliniowe? Na jakie modele bardziej wpływa skośność i dlaczego?

saurav shekhar
źródło
2
Aby udzielić rozsądnej odpowiedzi, wyjaśnij, co masz na myśli: a) dane, b) modelowanie ic) modele. Kluczowe pytanie - jak zwykle - jest to, co chcesz zrobić z nim . Ale co to jest ?
cherubin
Zaktualizowałem swoją odpowiedź, aby dodać kilka istotnych cytatów i rozwinąć roszczenia.
Tavrock

Odpowiedzi:

11

Podczas usuwania skośności transformacje próbują sprawić, aby zestaw danych podążał za rozkładem Gaussa. Powodem jest po prostu to, że jeśli zbiór danych można przekształcić tak, aby był statystycznie wystarczająco zbliżony do zbioru danych Gaussa, wówczas można użyć największego możliwego zestawu narzędzi. Testy takie jak ANOVA, test, F- test i wiele innych zależą od danych o stałej wariancji ( σ 2 ) lub według rozkładu Gaussa. 1tFσ2

Istnieją modele, które są bardziej wytrzymałe 1 (takie jak przy użyciu testu Levine'a zamiast Test Bartletta), ale większość testów i modeli, które pracują dobrze z innymi dystrybucjami wymagające, że wiesz, co dystrybucja Ci się pracuje z i zazwyczaj są właściwe tylko dla jednego dystrybucji także.

Cytując Podręcznik Inżynierii NIST :

W modelowaniu regresji często stosujemy transformacje, aby osiągnąć następujące dwa cele:

  1. w celu spełnienia założenia jednorodności wariancji dla błędów.
  2. w celu maksymalizacji liniowości dopasowania.

Wymagana jest ostrożność i osąd, ponieważ te dwa cele mogą być sprzeczne. Zasadniczo staramy się najpierw uzyskać jednorodne wariancje, a następnie rozwiązać problem liniowości dopasowania.

i w innym miejscu

Model obejmujący zmienną odpowiedzi i pojedynczą zmienną niezależną ma postać:

Yi=f(Xi)+Ei

gdzie jest zmienną odpowiedzi, X jest zmienną niezależną, f jest liniową lub nieliniową funkcją dopasowania, a E jest składową losową. W przypadku dobrego modelu składnik błędu powinien zachowywać się tak:YXfmi

  1. losowe rysunki (tj. niezależne);
  2. ze stałego rozkładu;
  3. ze stałą lokalizacją; i
  4. ze stałą odmianą.

Ponadto w przypadku dopasowywania modeli zwykle przyjmuje się ponadto, że ustalony rozkład jest normalny, a ustalona lokalizacja wynosi zero. Dla dobrego modelu ustalona odmiana powinna być jak najmniejsza. Niezbędnym elementem dopasowania modeli jest weryfikacja tych założeń dla składnika błędu i ocena, czy zmiana dla składnika błędu jest wystarczająco mała. Histogram, wykres opóźnienia i wykres normalnego prawdopodobieństwa są używane do weryfikacji założeń stałego rozkładu, lokalizacji i wariacji na składniku błędu. Wykres zmiennej odpowiedzi i przewidywanych wartości w zależności od zmiennej niezależnej służy do oceny, czy zmiana jest wystarczająco mała. Wykresy reszt względem zmiennej niezależnej i wartości prognozowane są wykorzystywane do oceny założenia niezależności.

Ocena poprawności i jakości dopasowania pod kątem powyższych założeń jest absolutnie istotną częścią procesu dopasowania modelu. Żadne dopasowanie nie powinno być uważane za kompletne bez odpowiedniego kroku weryfikacji modelu.


  1. (skrócone) cytowania roszczeń:
    • Breyfogle III, Forrest W. Implementing Six Sigma
    • Pyzdek, Thomas. Podręcznik Six Sigma
    • Montgomery, Douglas C. Wprowadzenie do statystycznej kontroli jakości
    • Ed. Cubberly, Willaim H and Bakerjan, Ramon. Podręcznik inżynierów narzędzi i inżynierów produkcji: Edycja Desktop
Tavrock
źródło
Dziękuję za odpowiedź Tavrock. Ale o ile mi wiadomo, ANOVA lub test t testu F nie są stosowane w drzewach decyzyjnych (przynajmniej do wykonywania podziałów). Również w regresji liniowej większość założeń dotyczących kształtu rozkładu jest związana z błędami. Jeśli błędy są wypaczone, testy te kończą się niepowodzeniem. Oznacza to, że skośność zmiennej predykcyjnej nie powinna wpływać na jakość prognozowania dla tych modeli. Proszę, popraw mnie jeśli się mylę. Dzięki jeszcze raz!!
saurav shekhar
1
Czy możesz wyjaśnić swoje pytanie - czy chcesz wiedzieć o transformacji zmiennej odpowiedzi, o transformacji zmiennych predykcyjnych, czy o obu tych rzeczach?
Groovy_Worm
1
@Groovy_Worm dzięki za wskazanie tego. W tym pytaniu niepokoją mnie zarówno zmienne predykcyjne, jak i zmienne odpowiedzi.
saurav shekhar
Być może szukasz uogólnionego modelowania liniowego (GLM) . W regresji liniowej zazwyczaj zakłada się, że zmienna zależna podąża za rozkładem gaussa zależnym od zmiennych losowych X i e . Dzięki GLM możesz rozszerzyć swój wszechświat, aby umożliwić (prawie) dowolny rodzaj rozkładu dla zmiennej zależnej, zmiennych niezależnych (poprzez określoną przez ciebie funkcję łącza ).
Chris K
7

Dotyczy to głównie modeli parametrycznych. Jak powiedział Tavrock, posiadanie zmiennej odpowiedzi, która nie jest przekrzywiona, sprawia, że ​​przybliżenie Gaussa estymacji parametrów działa lepiej, ponieważ rozkład symetryczny zbiega się znacznie szybciej niż przekrzywienie do Gaussa. Oznacza to, że jeśli wypaczyłeś dane, ich przekształcenie sprawi, że mniejszy zestaw danych będzie najmniej przydatny przy stosowaniu odpowiednio przedziałów ufności i testów parametrów (przedziały prognozowania nadal nie będą ważne, ponieważ nawet jeśli twoje dane są teraz symetryczne, nie możesz powiedzieć to normalne, tylko szacunki parametrów będą zbieżne do Gaussa).

Cała mowa dotyczy warunkowego rozkładu zmiennej odpowiedzi, można powiedzieć: o błędach. Niemniej jednak, jeśli masz zmienną, która wydaje się wypaczona, gdy spojrzysz na jej bezwarunkowy rozkład, może to prawdopodobnie oznaczać, że ma ona wypaczony rozkład warunkowy. dopasowanie modelu do danych oczyści Cię z tego.

W drzewach decyzyjnych najpierw wskażę jedną rzecz: nie ma sensu przekształcać wypaczonych zmiennych objaśniających, funkcje monotoniczne nic nie zmienią; może to być przydatne w modelach liniowych, ale nie dotyczy drzew decyzyjnych. To powiedziawszy, modele CART wykorzystują analizę wariancji do wykonania pluć, a wariancja jest bardzo sensowna dla wartości odstających i wypaczonych danych, dlatego transformacja zmiennej odpowiedzi może znacznie poprawić dokładność modelu.

Carlo
źródło
1

Uważam, że jest to w dużej mierze artefakt tradycji powrotu do Gaussów ze względu na ich miłe właściwości.

Ale istnieją ładne alternatywy dystrybucyjne, np. Uogólniona gamma, która obejmuje wiele różnych wypaczonych kształtów i form dystrybucyjnych

istotny
źródło
1

Jak powiedzieli inni czytelnicy, pomocne byłoby trochę więcej informacji na temat tego, co planujesz osiągnąć dzięki swoim danym.

To powiedziawszy, istnieją dwie ważne doktryny w dziedzinie statystyki znanej jako centralne twierdzenie graniczne i prawo wielkich liczb . To znaczy, że im więcej obserwacji, tym bardziej zbiór danych ma aproksymować rozkład normalny , taki o równej średniej, medianie i trybie. Zgodnie z prawem dużych liczb, oczekuje się, że odchylenie między wartością oczekiwaną a rzeczywistą ostatecznie spadnie do zera przy wystarczających obserwacjach.

Dlatego rozkład normalny pozwala badaczowi dokładniej przewidywać populację, jeśli znany jest rozkład podstawowy.

Skośność występuje wtedy, gdy rozkład odbiega od tego, tzn. Odchylenie może być dodatnie lub ujemne. Jednak centralne twierdzenie graniczne dowodzi, że biorąc pod uwagę wystarczająco duży zestaw obserwacji, wynikiem będzie rozkład w przybliżeniu normalny. Jeśli więc rozkład nie jest normalny, zawsze zaleca się zebranie większej ilości danych przed próbą zmiany podstawowej struktury rozkładu za pomocą wspomnianych procedur transformacji.

Michael Grogan
źródło
1

Kiedy skośność jest czymś złym? Rozkłady symetryczne (ogólnie, ale nie zawsze: np. Nie dla rozkładu Cauchy'ego) mają medianę, tryb i średnią bardzo blisko siebie. Zastanów się, czy chcemy zmierzyć lokalizację populacji, warto mieć medianę, tryb i średnią blisko siebie.

Na przykład, jeśli weźmiemy logarytm podziału dochodu , zmniejszamy na tyle skośność, że możemy uzyskać użyteczne modele lokalizacji dochodu. Jednak nadal będziemy mieć cięższy prawy ogon, niż naprawdę chcemy. Aby jeszcze bardziej to zmniejszyć, możemy użyć dystrybucji Pareto . Rozkład Pareto jest podobny do transformacji danych w dzienniku. Teraz zarówno rozkłady Pareto, jak i logarytmiczne mają trudności na dolnym końcu skali dochodów. Na przykład oboje cierpią z powoduln0=-. Rozwiązanie tego problemu obejmuje transformacje mocy .

Przykład z 25 dochodów w kilogramach dolarów skradzionych ze strony www.

k$	lnk$
28  3.33220451
29  3.36729583
35  3.555348061
42  3.737669618
42  3.737669618
44  3.784189634
50  3.912023005
52  3.951243719
54  3.988984047
56  4.025351691
59  4.077537444
78  4.356708827
84  4.430816799
90  4.49980967
95  4.553876892
101 4.615120517
108 4.682131227
116 4.753590191
121 4.795790546
122 4.804021045
133 4.890349128
150 5.010635294
158 5.062595033
167 5.117993812
235 5.459585514

Skośność pierwszej kolumny wynosi 0,99, a drugiej wynosi -0,05. Pierwsza kolumna prawdopodobnie nie jest normalna (Shapiro-Wilk p = 0,04), a druga nie jest znacząco nienormalna (p = 0,57).

First column    Mean 90.0 (95% CI, 68.6 to 111.3)     Median 84.0 (95.7% CI, 52.0 to 116.0)
Second col Exp(Mean) 76.7 (95% CI, 60.2 to 97.7) Exp(Median) 84.0 (95.7% CI, 52.0 to 116.0)

Pytanie brzmi zatem: jeśli jesteś osobą losową, która ma jeden z zarobków, jakie możesz zarobić? Czy uzasadnione jest stwierdzenie, że zarobiłbyś 90 tys. Lub więcej niż mediana 84 tys.? A może bardziej prawdopodobne jest stwierdzenie, że nawet mediana jest tendencyjna jako miara lokalizacji i żeexp[oznaczaćln(k$)]  76,7 k, czyli mniej niż mediana, jest również bardziej uzasadniony jako szacunek?

Oczywiście log-norma tutaj jest lepszym modelem, a średni logarytm daje nam lepszą miarę lokalizacji. To, że jest to dobrze znane, o ile nie do końca zrozumiane, ilustruje zwrot „Przewiduję uzyskanie pięciocyfrowej pensji”.

Carl
źródło
0

Większość wyników opiera się na założeniach Gaussa. Jeśli masz przekrzywiony rozkład, nie masz rozkładu Gaussa, więc może powinieneś desperacko spróbować przekształcić go w to.

Ale oczywiście możesz spróbować z GLM.

Czerwony hałas
źródło
0

Myślę, że to nie tylko modelowanie, ale nasze mózgi nie są przyzwyczajone do pracy z mocno wypaczonymi danymi. Na przykład w finansach behawioralnych wiadomo, że nie jesteśmy dobrzy w szacowaniu bardzo niskiego lub wysokiego prawdopodobieństwa.

Aksakal
źródło