Mam próbkę 1449 punktów danych, które nie są skorelowane (r-kwadrat 0,006).
Analizując dane, odkryłem, że dzieląc wartości zmiennych niezależnych na grupy dodatnie i ujemne, wydaje się, że istnieje znacząca różnica w średniej zmiennej zależnej dla każdej grupy.
Dzieląc punkty na 10 przedziałów (decyli) przy użyciu niezależnych wartości zmiennych, wydaje się, że istnieje silniejsza korelacja między liczbą decyli a średnimi wartościami zmiennych zależnych (r-kwadrat 0,27).
Nie znam się na statystykach, więc oto kilka pytań:
- Czy to prawidłowe podejście statystyczne?
- Czy istnieje metoda znalezienia najlepszej liczby pojemników?
- Jaki jest właściwy termin na to podejście, aby móc go Google?
- Jakie są podstawowe zasoby, aby dowiedzieć się o tym podejściu?
- Jakie inne podejścia mogę zastosować do znalezienia relacji w tych danych?
Oto dane decylowe w celach informacyjnych: https://gist.github.com/georgeu2000/81a907dc5e3b7952bc90
EDYCJA: Oto obraz danych:
Przemysł Momentum jest zmienną niezależną, jakość punktu wejścia jest zależna
regression
correlation
linear-model
r-squared
B Seven
źródło
źródło
Odpowiedzi:
0. Korelacja (0,0775) jest niewielka, ale (statystycznie) znacząco różni się od 0. To znaczy, wygląda na to, że naprawdę istnieje korelacja, jest po prostu bardzo mała / słaba (równoważnie, wokół relacji jest dużo szumu).
1. Uśrednianie w przedziałach powoduje zmniejszenie zmienności danych ( efekt dla standardowego błędu średniej), co oznacza, że sztucznie zawyżasz słabą korelację. Zobacz także (nieco) powiązany problem .σ/n--√
2. Jasne, że mniej pojemników oznacza, że więcej danych zostaje uśrednionych, co zmniejsza hałas, ale im są szersze, tym „słabsza” jest średnia w każdym pojemniku, ponieważ średnia nie jest całkiem stała - dochodzi do kompromisu. Chociaż można wyprowadzić formułę optymalizującą korelację przy założeniu liniowości i rozkładu wartości , nie uwzględniałby w pełni uwzględnionego w pewnym stopniu efektu szumu w danych. Prostym sposobem jest wypróbowanie całej gamy różnych granic pojemników, aż uzyskasz to, co lubisz. Nie zapomnij spróbować różnych szerokości i początków pojemników. Ta strategia może czasami okazać się zaskakująco przydatna w przypadku gęstości , a tego rodzaju sporadyczną przewagę można przenieść na relacje funkcjonalne - być może umożliwiając uzyskaniex dokładnie taki wynik, na jaki liczyłeś .
3. Tak Być może zacznij od tego wyszukiwania , a następnie spróbuj synonimów.
4. To dobre miejsce na rozpoczęcie; jest to bardzo popularna książka skierowana do osób niepaństwowych.
5. (poważniej :) Sugeruję wygładzanie (powiedzmy przez lokalną regresję wielomianową / wygładzanie jądra) jako jeden ze sposobów badania zależności. Zależy to dokładnie od tego, czego chcesz, ale może to być prawidłowe podejście, gdy nie znasz formy relacji, pod warunkiem, że unikniesz problemu pogłębiania danych.
Istnieje popularny cytat, którego pomysłodawcą jest Ronald Coase :
źródło
Być może skorzystałbyś z narzędzia eksploracyjnego. Wydaje się, że podział danych na decile współrzędnej x został dokonany w tym duchu. Dzięki modyfikacjom opisanym poniżej jest to bardzo dobre podejście.
Wynaleziono wiele dwuwymiarowych metod badawczych. Prostym zaproponowanym przez Johna Tukeya ( EDA , Addison-Wesley 1977) jest jego „wędrowny schemat”. Kroisz współrzędną x na przedziały, ustawiasz pionowy wykres odpowiadających danych y w środkowej części każdego przedziału i łączysz kluczowe części wykresów (mediany, zawiasy itp.) W krzywe (opcjonalnie wygładzając je). Te „wędrujące ślady” zapewniają obraz dwuwymiarowego rozkładu danych i umożliwiają natychmiastową wizualną ocenę korelacji, liniowości relacji, wartości odstających i rozkładów brzeżnych, a także solidne oszacowanie i ocenę dopasowania każdej nieliniowej funkcji regresji .
Do tego pomysłu Tukey dodał myśl, zgodną z ideą boxplot, że dobrym sposobem na zbadanie dystrybucji danych jest rozpoczęcie od środka i praca na zewnątrz, zmniejszenie o połowę ilości danych w miarę przemieszczania się. Oznacza to, że używane pojemniki nie muszą być cięte w równo rozmieszczonych kwantylach, ale powinny odzwierciedlać kwantyle w punktach i dla .2)- k 1 -2)- k k = 1 , 2 , 3 , …
Aby wyświetlić różne populacje bin, możemy ustawić szerokość każdego wykresu pudełkowego proporcjonalnie do ilości danych, które reprezentuje.
Powstały schemat wędrówki wyglądałby mniej więcej tak. Dane opracowane na podstawie podsumowania danych są wyświetlane jako szare kropki w tle. Nad tym narysowano schemat wędrówki, z pięcioma śladami w kolorze, a wykresy pudełkowe (w tym wszelkie pokazane wartości odstające) w czerni i bieli.
Charakter niemal zerowej korelacji staje się natychmiast jasny: dane się zmieniają. W pobliżu ich środka, od do , mają silną korelację dodatnią. Przy ekstremalnych wartościach dane te wykazują relacje krzywoliniowe, które ogólnie są negatywne. Współczynnik korelacji netto (który dla tych danych wynosi ) jest bliski zeru. Jednak naleganie na interpretację tego jako „prawie brak korelacji” lub „znacząca, ale niska korelacja” byłoby tym samym błędem, który został sfałszowany w starym żartu o statystyce, który był zadowolony z głową w piekarniku i stopami w lodówce, ponieważ średnio temperatura była komfortowa. Czasami pojedynczy numer nie wystarczy, aby opisać sytuację.x = - 4 x = 4 - 0,074
Alternatywne narzędzia eksploracyjne o podobnych celach obejmują solidne wygładzanie okienkowanych kwantyli danych oraz dopasowanie regresji kwantyli przy użyciu szeregu kwantyli. Dzięki dostępności oprogramowania do wykonywania tych obliczeń być może stało się łatwiejsze do wykonania niż wędrujący schematyczny ślad, ale nie cieszą się taką samą prostotą budowy, łatwością interpretacji i szerokim zastosowaniem.
Poniższy
R
kod utworzył rysunek i można go zastosować do oryginalnych danych z niewielką lub żadną zmianą. (Zignoruj ostrzeżenia wywołane przezbplt
(wywoływany przezbxp
): narzeka, gdy nie ma żadnych wartości odstających.)źródło
c(0,.03,-.6,.5,-.1,.6,1.2,.7,1.4,.1,.6)
, czy jest on generowany i zależny od danych (x
)? Wspominasz o tym,2^*(-k)
ale to nie jest powiązane.k <- 1:11; ifelse(quantile(g, seq(0,1,1/10))>0, 2^(-k), 1-2^(-k))
Nie wierzę, że binning jest naukowym podejściem do problemu. Jest to utrata informacji i arbitralność. Metody rangowe (porządkowe; półparametryczne) są znacznie lepsze i nie tracą informacji. Nawet jeśli ktoś zdecyduje się na binowanie decylowe, metoda jest nadal arbitralna i nie jest odtwarzalna dla innych, po prostu z powodu dużej liczby definicji, które są używane dla kwantyli w przypadku powiązań w danych. I jak wspomniano powyżej w miłym komentarzu dotyczącym tortur danych, Howard Wainer ma fajny artykuł pokazujący, jak znaleźć pojemniki, które mogą dawać pozytywne skojarzenia, i znaleźć pojemniki, które mogą dawać negatywne skojarzenia, z tego samego zestawu danych:
źródło
Dzielenie danych na decyle w oparciu o zaobserwowany X („Jakość punktu wejścia”) wydaje się być uogólnieniem starej metody zaproponowanej najpierw przez Walda, a później przez innych w sytuacjach, w których zarówno X, jak i Y są obarczone błędem. (Wald podzielił dane na dwie grupy. Nair i Shrivastava i Bartlett podzielili je na trzy.) Jest to opisane w części 5C Zrozumienia solidnej i eksploracyjnej analizy danych , pod redakcją Hoaglin, Mosteller i Tukey (Wiley, 1983). Jednak od tego czasu wykonano wiele pracy nad takim „błędem pomiaru” lub „błędem w modelach zmiennych”. Podręczniki, które przeglądałem, to Błąd pomiaru: modele, metody i zastosowania autorstwa Johna Buonaccorsi (CRC Press,
Twoja sytuacja może być nieco inna, ponieważ twój wykres rozrzutu prowadzi mnie do podejrzeń, że obie obserwacje są zmiennymi losowymi i nie wiem, czy każda zawiera błąd pomiaru. Co reprezentują zmienne?
źródło
Uważam, że pakiet localgauss jest bardzo przydatny do tego. https://cran.r-project.org/web/packages/localgauss/index.html
Pakiet zawiera
Przykład:
Wynik:
źródło