Załóżmy, że mamy zestaw danych z n punktami. Chcemy przeprowadzić regresję liniową, ale najpierw sortujemy wartości X_i i wartości Y_i niezależnie od siebie, tworząc zestaw danych (X_i, Y_j) . Czy jest jakaś sensowna interpretacja regresji w nowym zbiorze danych? Czy to ma imię?X i Y i ( X i , Y j )
Wyobrażam sobie, że to głupie pytanie, więc przepraszam, nie jestem formalnie wyszkolony w statystyce. Moim zdaniem to całkowicie niszczy nasze dane, a regresja jest bez znaczenia. Ale mój menedżer mówi, że dostaje „lepsze regresje przez większość czasu”, kiedy to robi (tutaj „lepszy” oznacza bardziej przewidywalny). Mam wrażenie, że sam siebie oszukuje.
EDYCJA: Dziękuję za wszystkie twoje miłe i cierpliwe przykłady. Pokazałem mu przykłady @ RUser4512 i @gung, a on pozostaje wierny. Staje się poirytowany, a ja się wyczerpuję. Czuję się załamany. Prawdopodobnie wkrótce zacznę szukać innych ofert pracy.
źródło
Odpowiedzi:
Nie jestem pewien, co twój szef uważa za „bardziej przewidywalny”. Wiele osób błędnie uważa, że niższe wartości oznaczają lepszy / bardziej przewidywalny model. To niekoniecznie jest prawdą (jest to przypadek). Jednak wcześniejsze samodzielne sortowanie obu zmiennych zagwarantuje niższą wartość . Z drugiej strony możemy ocenić dokładność predykcyjną modelu, porównując jego prognozy z nowymi danymi wygenerowanymi przez ten sam proces. Robię to poniżej w prostym przykładzie (zakodowanym ). pp p
R
Górny lewy wykres pokazuje oryginalne dane. Istnieje pewna zależność między i (viz., Korelacja wynosi około ). W prawym górnym fabuła pokazuje, co dane wyglądać po niezależnie sortowania obu zmiennych. Łatwo można zauważyć, że siła korelacji znacznie wzrosła (obecnie wynosi około ). Jednak na niższych wykresach widzimy, że rozkład błędów predykcyjnych jest znacznie bliższy dla modelu wyuczonego na oryginalnych (nieposortowanych) danych. Średni bezwzględny błąd predykcyjny dla modelu wykorzystującego oryginalne dane wynosi , podczas gdy średni bezwzględny błąd predykcyjny dla modelu wyuczonego na posortowanych danych wynosiY 0,31 0,99 0 1,1 1,98 R 68 %x y .31 .99 0 1.1 1.98 - prawie dwa razy większy. Oznacza to, że prognozy posortowanego modelu danych są znacznie dalej od prawidłowych wartości. Wykres w prawym dolnym kwadrancie jest wykresem kropkowym. Wyświetla różnice między błędem predykcyjnym w przypadku danych oryginalnych i danych posortowanych. Umożliwia to porównanie dwóch odpowiednich prognoz dla każdej nowej symulowanej obserwacji. Niebieskie kropki po lewej to czasy, w których oryginalne dane były bliższe nowej wartości , a czerwone kropki po prawej to czasy, w których posortowane dane dały lepsze prognozy. Dokładniejsze prognozy z modelu przeszkolonego na oryginalnych danych czasu. y 68%
Stopień, w jakim sortowanie spowoduje te problemy, jest funkcją zależności liniowej istniejącej w danych. Jeżeli zależność między a był już nie sortowanie nie ma to znaczenia, a więc są szkodliwe. Z drugiej strony, gdyby korelacja wynosiłay 1,0 - 1,0x y 1.0 −1.0 , sortowanie całkowicie odwróciłoby związek, czyniąc model tak niedokładnym, jak to możliwe. Gdyby dane były pierwotnie całkowicie nieskorelowane, sortowanie miałoby pośredni, ale wciąż dość duży, szkodliwy wpływ na dokładność predykcyjną wynikowego modelu. Ponieważ wspominasz, że Twoje dane są zwykle skorelowane, podejrzewam, że zapewniło pewną ochronę przed szkodami nieodłącznie związanymi z tą procedurą. Niemniej jednak sortowanie jako pierwsze jest zdecydowanie szkodliwe. Aby zbadać te możliwości, możemy po prostu ponownie uruchomić powyższy kod z różnymi wartościami dla
B1
(używając tego samego materiału źródłowego dla odtwarzalności) i zbadać dane wyjściowe:B1 = -5
:B1 = 0
:B1 = 5
:źródło
<-
czasami używam , ale moim celem na CV jest napisanie kodu R tak blisko pseudokodu, jak to możliwe, aby był bardziej czytelny dla osób, które nie są zaznajomione z R.=
Jest dość uniwersalny wśród języków programowania jako operator przypisania .Jeśli chcesz przekonać swojego szefa, możesz pokazać, co się dzieje z symulowanymi, losowymi, niezależnymi danymi . Z R:x,y
Oczywiście posortowane wyniki oferują znacznie ładniejszą regresję. Biorąc jednak pod uwagę proces generowania danych (dwie niezależne próbki), absolutnie nie ma szans, że jednej można użyć do przewidzenia drugiej.
źródło
Twoja intuicja jest prawidłowa: niezależnie posortowane dane nie mają wiarygodnego znaczenia, ponieważ dane wejściowe i wyjściowe są losowo odwzorowywane względem siebie, a nie jak zaobserwowano związek.
Istnieje (dobra) szansa, że regresja posortowanych danych będzie wyglądać ładnie, ale w kontekście jest bez znaczenia.
Intuicyjny przykład: Załóżmy, że zestaw danych dla pewnej populacji. Wykres niefałszowanych danych prawdopodobnie wyglądałby raczej jak funkcja logarytmiczna lub potęgowa: szybsze tempo wzrostu u dzieci, które spowalnia u późniejszych nastolatków i „asymptotycznie” zbliża się do maksymalnej wysokości dla młodych dorosłych i starszych.(X=age,Y=height)
Jeśli posortujemy w porządku rosnącym, wykres prawdopodobnie będzie prawie liniowy. Zatem funkcja przewidywania polega na tym, że ludzie stają się wyżsi przez całe życie. Nie postawiłbym pieniędzy na ten algorytm przewidywania.x,y
źródło
Zróbmy to naprawdę oczywiste i proste. Załóżmy, że przeprowadzam eksperyment, w którym odmierzam 1 litr wody w znormalizowanym pojemniku i patrzę na ilość wody pozostałej w pojemniku w funkcji czasu , utraty wody z powodu parowania:Vi ti
Załóżmy teraz, że otrzymuję następujące pomiary w godzinach i litrach: Są to oczywiście doskonale skorelowane (i hipotetyczne) dane. Ale gdybym posortował pomiary czasu i objętości, Wniosek z tego posortowanego zestawu danych jest taki, że wraz ze wzrostem czasu wzrasta objętość wody, a ponadto, począwszy od 1 litra wody, można uzyskać po 5 godzinach oczekiwania, więcej niż 1 litr wody. Czy to nie jest niezwykłe? Wniosek jest nie tylko odwrotny do tego, co mówią oryginalne dane, ale także sugeruje, że odkryliśmy nową fizykę!(ti,Vi)
źródło
Jest to prawdziwa sztuka i wymaga prawdziwego zrozumienia psychologii, aby przekonać niektórych ludzi o błędach ich postępowania. Poza wszystkimi powyższymi doskonałymi przykładami, użyteczną strategią jest czasem wykazanie, że wiara danej osoby prowadzi do niespójności z nią samą. Lub spróbuj tego podejścia. Dowiedz się, o czym tak mocno wierzy szef, na przykład o tym, jak osoby wykonują zadanie Y, nie ma związku z ilością posiadanego atrybutu X. Pokaż, jak podejście własnego szefa doprowadziłoby do zakończenia silnego związku między X i Y. Wykorzystaj przekonania polityczne / rasowe / religijne.
Nieważność twarzy powinna wystarczyć. Co za uparty szef. W międzyczasie szukaj lepszej pracy. Powodzenia.
źródło
Jeszcze jeden przykład. Wyobraź sobie, że masz dwie zmienne, jedną związaną z jedzeniem czekolady i drugą związaną z ogólnym samopoczuciem. Masz próbkę dwóch, a Twoje dane wyglądają jak poniżej:
Jaki jest stosunek czekolady do szczęścia na podstawie Twojej próbki? A teraz zmień kolejność jednej z kolumn - jaka jest relacja po tej operacji?
Do tego samego problemu można podejść inaczej. Powiedz, że masz większą próbkę, z pewną liczbą przypadków i mierzysz dwie zmienne ciągłe: zużycie czekolady dziennie (w gramach) i szczęście (wyobraź sobie, że masz jakiś sposób, aby ją zmierzyć). Jeśli jesteś zainteresowany, czy są one ze sobą powiązane, możesz zmierzyć korelację lub zastosować model regresji liniowej, ale czasami w takich przypadkach ludzie po prostu dzielą jedną zmienną na dychotomię i używają jej jako czynnika grupującego z testem ( nie jest to najlepszy i niet zalecane podejście, ale pozwól mi użyć go jako przykładu). Dzielisz więc próbkę na dwie grupy: o wysokim zużyciu czekolady i niskim zużyciu czekolady. Następnie porównujesz średnie szczęście w obu grupach. Teraz wyobraź sobie, co by się stało, gdybyś posortował zmienną szczęścia niezależnie od zmiennej grupującej: wszystkie przypadki z wysokim szczęściem przejdą do grupy o wysokim zużyciu czekolady, a wszystkie przypadki o niskim poziomie szczęścia trafią do grupy o niskim zużyciu czekolady - czy taki test hipotez miałby jakiś sens? Można to łatwo ekstrapolować na regresję, jeśli wyobrażasz sobie, że zamiast dwóch grup spożywających czekoladę masz takich grup, po jednej dla każdego uczestnika (zauważ, że test jest związany z regresją).N t
W regresji lub korelacji dwuwymiarowej interesują nas parami relacje między każdą wartością i wartością , zmiana kolejności obserwacji niszczy tę zależność. Jeśli posortujesz obie zmienne, to zawsze spowoduje, że będą one bardziej pozytywnie skorelowane ze sobą, ponieważ zawsze będzie tak, że jeśli jedna ze zmiennych wzrośnie, druga również się zwiększy (ponieważ są one posortowane!).i X i Y
Zauważ, że czasami faktycznie jesteśmy zainteresowani zmianą kolejności spraw, robimy to w metodach ponownego próbkowania . Na przykład możemy celowo przetasować obserwacje wiele razy, aby dowiedzieć się czegoś o zerowym rozkładzie naszych danych (jak wyglądałyby nasze dane, gdyby nie istniały relacje parami), a następnie możemy porównać, czy nasze rzeczywiste dane są lepsze niż losowo przetasowane. To, co robi twój menedżer, jest dokładnie odwrotne - celowo zmusza obserwacje do posiadania sztucznej struktury, w której nie było żadnej struktury, co prowadzi do fałszywych korelacji.
źródło
Prosty przykład, który być może twój kierownik może zrozumieć:
Załóżmy, że masz Monetę Y i Monetę X, i odwracasz każdą z nich 100 razy. Następnie chcesz przewidzieć, czy zdobycie głów za pomocą Monety X (IV) może zwiększyć szansę na zdobycie głów za pomocą Monety Y (DV).
Bez sortowania związek nie będzie żadnego, ponieważ wynik Monety X nie powinien wpływać na wynik Monety Y. Dzięki sortowaniu relacja będzie prawie idealna.
Jak sensowne jest stwierdzenie, że masz dużą szansę na trafienie monetą w monetę, jeśli właśnie rzuciłeś monetą inną monetą?
źródło
Ta technika jest naprawdę niesamowita. Znajduję wszelkiego rodzaju związki, których nigdy nie podejrzewałem. Na przykład nie podejrzewałbym, że liczby, które pojawiają się w loterii Powerball, która jest ROSZCZONA, są losowe, w rzeczywistości są bardzo skorelowane z ceną otwarcia akcji Apple tego samego dnia! Ludzie, myślę, że wkrótce zarobimy. :)
Hmm, wydaje się, że nie ma znaczącego związku. ALE przy użyciu nowej, ulepszonej techniki:
UWAGA: To nie jest poważna analiza. Po prostu pokaż swojemu menedżerowi, że mogą powiązać WSZYSTKIE dwie zmienne istotnie powiązane, jeśli posortujesz je obie.
źródło
Wiele dobrych przykładów liczników tutaj. Pozwólcie, że dodam akapit o istocie problemu.
Szukasz korelacji między a . Oznacza to, że zarówno i wydają się być duże dla tego samego i małe dla tego samego . Tak więc korelacja jest właściwością połączoną z , połączoną z i tak dalej. Sortując niezależnie i (w większości przypadków) tracisz parowanie. nie będzie już sparowany z . Zatem korelacja posortowanych wartości nie mierzy połączenia między iXi Yi X Y i i X1 Y1 X2 Y2 X Y X1 Y1 X1 Y1 którego szukasz.
Właściwie dodam akapit o tym, dlaczego to „działa”.
Kiedy sortujesz obie listy, nazwijmy nową posortowaną listę , i tak dalej, będzie najmniejszą wartością , a będzie najmniejszą wartością Y. będzie największym i będzie największym . Następnie sprawdzasz nowe listy, jeśli występują małe i duże wartości. Oznacza to, że pytasz, czy jest małe, gdy jest małe. Czy duże, gdy jest duże? Oczywiście odpowiedź brzmi „tak” i oczywiście uzyskamy prawie idealną korelację. Czy to coś mówi oX b X a X Y a X z XXa Xb Xa X Ya Xz X Yz Y Xa Ya Xz Yz X1 związek z ? Nie.Y1
źródło
W rzeczywistości opisany test (tj. Sortuj wartości X i wartości Y niezależnie i regresuj jedną względem drugiej) CZY testuje coś, zakładając, że próbki (X, Y) są próbkowane jako niezależne pary z rozkładu dwuwymiarowego. To po prostu nie jest test tego, co twój menedżer chce przetestować. W zasadzie sprawdza liniowość wykresu QQ, porównując rozkład brzeżny Xs z rozkładem brzeżnym Ys. W szczególności „dane” spadną blisko linii prostej, jeśli gęstość Xs (f (x)) jest powiązana z gęstością Ys (g (y)) w ten sposób:
źródło
Dziwne, że najbardziej oczywisty kontrprzykład nadal nie występuje wśród odpowiedzi w najprostszej formie.
Niech .Y=−X
Jeśli sortujesz zmienne osobno i dopasowujesz model regresji do takich danych, powinieneś uzyskać coś w rodzaju (ponieważ podczas sortowania zmiennych, większe wartości jednej muszą odpowiadać większym wartościom drugiej).Y^≈X
Jest to swego rodzaju „bezpośrednia odwrotność” wzoru, który być może zechcesz tutaj znaleźć.
źródło
Masz rację. Twój menedżer znalazłby „dobre” wyniki! Ale są bez znaczenia. Kiedy sortujesz je niezależnie, zyskujesz, że oba zwiększają się lub zmniejszają podobnie, co daje pozór dobrego modelu. Ale dwie zmienne zostały pozbawione ich rzeczywistej relacji i model jest niepoprawny.
źródło
To fabuła QQ, prawda? Użyłbyś go do porównania rozkładu x vs. y. Jeśli narysujesz posortowane wyniki relacji takie jak , wykres byłby krzywy, co wskazuje, że i dla niektórych próbek mają różne rozkłady.x∼x2 x x2 x
Regresja liniowa jest zwykle mniej rozsądna (istnieją wyjątki, zobacz inne odpowiedzi); ale geometria ogonów i rozkład błędów pokazuje, jak daleko od podobnych rozkładów są.
źródło
Mam prostą intuicję, dlaczego tak naprawdę jest to dobry pomysł, jeśli funkcja jest monotonna :
Wyobraź sobie, że znasz dane wejściowe i są one uszeregowane, tj. i zakładamy, że jest nieznaną funkcją, którą chcemy oszacować. Możesz zdefiniować losowy model gdzie są niezależnie próbkowane w następujący sposób: gdzie jest równomiernie próbkowany z dyskretnego ustaw . Tutaj kontroluje wariancję. Na przykład nie powoduje hałasu, a daje niezależne wejścia i wyjścia.x1,x2,⋯,xn xi<xi+1 f:R↦R yi=f(xi)+εi εi
Mając na uwadze ten model, proponowana metoda „sortowania” twojego szefa ma doskonały sens: jeśli uszeregujesz dane, w jakiś sposób zmniejszysz ten rodzaj hałasu, a oszacowanie powinno być lepsze przy łagodnych założeniach.f
W rzeczywistości bardziej zaawansowany model zakłada, że są zależne, więc nie możemy obserwować 2 razy tego samego wyniku. W takim przypadku metoda sortowania może być nawet optymalna. Może to mieć silny związek z losowymi modelami rankingowymi, takimi jak losowe permutacje Mallow.εi
PS: Wydaje mi się niesamowite, jak pozornie proste pytanie może prowadzić do interesujących nowych sposobów ponownego przemyślenia modelu standardów. Proszę, dziękuję szefie!
źródło
Załóżmy, że masz te punkty na okręgu o promieniu 5. Obliczasz korelację:
Następnie posortuj wartości x i y i ponownie wykonaj korelację:
Dzięki tej manipulacji zmieniasz zestaw danych z korelacją 0,0 na jeden z korelacją 1,0. To jest problem.
źródło
Pozwól mi zagrać tutaj w Adwokata diabła. Sądzę, że wiele odpowiedzi przekonywało, że procedura szefa jest zasadniczo błędna. Jednocześnie proponuję kontrprzykład, który pokazuje, że szef mógł rzeczywiście zaobserwować poprawę wyników przy tej błędnej transformacji.
Myślę, że uznanie, że ta procedura mogła „zadziałać” dla szefa, może rozpocząć bardziej przekonujący argument: Jasne, zadziałało, ale tylko w tych szczęśliwych okolicznościach, które zwykle nie są w stanie wytrzymać. Następnie możemy pokazać - jak w doskonale przyjętej odpowiedzi - jak źle może być, gdy nie mamy szczęścia. Który jest przez większość czasu. W izolacji, pokazując szefa jak źle może być nie może przekonać go, ponieważ może on widziałem przypadek, gdy to robi poprawić rzeczy, a postać, że nasza wyobraźnia argument musi mieć wadę gdzieś.
Znalazłem te dane w Internecie i na pewno wydaje się, że regresja jest poprawiona przez niezależne sortowanie X i Y, ponieważ: a) dane są bardzo pozytywnie skorelowane, i b) OLS naprawdę nie radzi sobie z ekstremalnymi (wysokie -średnie) wartości odstające. Wysokość i waga mają korelację 0,19 z zawartą wartością odstającą, 0,77 z wyłączeniem wartości odstającej i 0,78 z X i Y niezależnie posortowanymi.
Wydaje mi się więc, że model regresji w tym zestawie danych został ulepszony przez niezależne sortowanie (czarna kontra czerwona linia na pierwszym wykresie) i istnieje widoczna zależność (czarna kontra czerwona na drugim wykresie), ze względu na szczególny zestaw danych wysoce (pozytywnie) skorelowane i posiadające odpowiedni rodzaj wartości odstających, które szkodzą regresji bardziej niż tasowanie, które występuje, gdy niezależnie sortujesz x i y.
Ponownie, nie powiedzenie samodzielnego sortowania nie ma w ogóle nic sensownego, ani że jest to poprawna odpowiedź tutaj. Tylko że szef mógł zobaczyć coś takiego, co zdarzyło się działać w odpowiednich okolicznościach.
źródło
Jeśli wstępnie wybrał zmienne monotoniczne, to w rzeczywistości jest dość solidny. „Niewłaściwe modele liniowe” Google i „Robin Dawes” lub „Howard Wainer”. Dawes i Wainer rozmawiają o alternatywnych sposobach wyboru współczynników. John Cook ma krótką kolumnę ( http://www.johndcook.com/blog/2013/03/05/robustness-of-equal-weights/ ) na ten temat.
źródło
Pomyślałem o tym i pomyślałem, że jest tu jakaś struktura oparta na statystykach zamówień. Sprawdziłem i wydaje mi się, że menadżer nie jest tak szalony, jak się wydaje
Zamów współczynnik korelacji statystyki jako nowatorski pomiar skojarzenia z aplikacjami do analizy Biosignal
http://www.researchgate.net/profile/Weichao_Xu/publication/3320558_Order_Statistics_Correlation_Coefficient_as_a_Novel_Association_Measurement_With_Applications_to_Biosignal_Analysis/links/0912f507ed6f94a3c60000
źródło