Dla jakich rozkładów brak korelacji oznacza niezależność?

Czczone przypomnienie w statystykach brzmi: „nieskorelowanie nie oznacza niezależności”. Zazwyczaj to przypomnienie jest uzupełniane kojącym psychologicznie (i naukowo poprawnym) stwierdzeniem „kiedy jednak te dwie zmienne są wspólnie normalnie rozmieszczone , wówczas nieskorelacja implikuje niezależność”.

Mogę zwiększyć liczbę szczęśliwych wyjątków z jednego do dwóch: kiedy dwie zmienne są rozkładem Bernoulliego , to znowu nieskorelacja implikuje niezależność. Jeśli i są dwoma Bermoulli rv, , dla których mamy , i analogicznie dla ich kowariancja wynosi $X$ $Y$ $X \sim B(q_x),\; Y \sim B(q_y)$ $P(X=1) = E(X) = q_x$ $Y$

Cov (X, Y) = E (X Y) - E (X) E (Y) = \sum_{S_{X Y}} p (x, y) x y - q_{x} q_{y}

$\operatorname{Cov}(X,Y)= E(XY) - E(X)E(Y) = \sum_{S_{XY}}p(x,y)xy - q_xq_y$

= P (X = 1, Y = 1) - q_{x} q_{y} = P (X = 1 ∣ Y = 1) P (Y = 1) - q_{x} q_{y}

$= P(X=1,Y=1) - q_xq_y = P(X=1\mid Y=1)P(Y=1)-q_xq_y$

= (P (X = 1 ∣ Y = 1) - q_{x}) q_{y}

$= \Big(P(X=1\mid Y=1)-q_x\Big)q_y$

W przypadku braku korelacji wymagamy, aby kowariancja była równa zero

Cov (X, Y) = 0 \Rightarrow P (X = 1 ∣ Y = 1) = P (X = 1)

$\operatorname{Cov}(X,Y) = 0 \Rightarrow P(X=1\mid Y=1) = P(X=1)$

\Rightarrow P (X = 1, Y = 1) = P (X = 1) P (Y = 1)

$\Rightarrow P(X=1,Y=1) = P(X=1)P(Y=1)$

co jest warunkiem koniecznym do niezależności zmiennych.

Więc moje pytanie brzmi: czy znasz jakieś inne rozkłady (ciągłe lub dyskretne), dla których nieskorelowanie oznacza niezależność?

Znaczenie: Załóżmy, że dwie zmienne losowe które mają rozkłady krańcowe, które należą do tego samego rozkładu (być może z różnymi wartościami parametrów rozkładu), ale powiedzmy z tym samym wsparciem np. dwa wykładnicze, dwa trójkątne itp. Czy wszystkie rozwiązania równania są takie, że implikują również niezależność, z uwagi na formę / właściwości zaangażowanych funkcji rozkładu? Tak jest w przypadku normalnych marginesów (biorąc pod uwagę, że mają one dwuwymiarowy rozkład normalny), a także marginesów Bernoulliego - czy są jeszcze jakieś inne przypadki? $X,Y$ $\operatorname{Cov}(X,Y) = 0$

Motywacja jest tutaj taka, że zwykle łatwiej jest sprawdzić, czy kowariancja wynosi zero, w porównaniu do sprawdzenia, czy zachodzi niezależność. Jeśli więc, biorąc pod uwagę rozkład teoretyczny, sprawdzając kowariancję, sprawdzasz także niezależność (jak ma to miejsce w przypadku Bernoulliego lub normalnym przypadku), dobrze byłoby wiedzieć.
Jeśli otrzymamy dwie próbki z dwóch rv, które mają normalne marginesy, wiemy, że jeśli możemy statystycznie wnioskować z próbek, że ich kowariancja wynosi zero, możemy również powiedzieć, że są one niezależne (ale tylko dlatego, że mają normalne marginesy). Przydałoby się wiedzieć, czy moglibyśmy dojść do podobnego wniosku w przypadkach, w których dwa pojazdy miały marginesy należące do innej dystrybucji.

probability distributions correlation mathematical-statistics independence Alecos Papadopoulos
źródło

Logicznie rzecz biorąc, nie ma tutaj pytania: weź dowolną parę zmiennych niezależnych jako rozkład. Niezależnie od tego, czy są ze sobą skorelowane, są niezależne od fiat ! Naprawdę musisz dokładniej określić, co rozumiesz przez „dystrybucję” i jakie odpowiedzi będą dla Ciebie przydatne.

whuber

@whuber Nie rozumiem twojego komentarza. I zacząć od uncorrelatedness i zapytać: „czy mogę udowodnić, że są nieskorelowane, gdy ma to oznaczać, że są one również niezależne”? Ponieważ dwa wyniki podane w pytaniu zależą od tego, że rv ma określony rozkład (normalny lub Bernoulli), pytam „czy istnieje jakikolwiek inny znany rozkład, dla którego, jeśli dwie zmienne następują po nim, wyniki są zachowane”?

Alecos Papadopoulos

Weź dowolne dwie niezależne zmienne i niech będzie ich rozkładem. jest prawidłową odpowiedzią na twoje pytanie. Zauważ, że prosisz o udowodnienie warunku, który z definicji jest prawdziwy, ilekroć konsekwencja jest prawdziwa, bez względu na to, jaka może być wartość prawna jego poprzednika. Zatem, zgodnie z podstawowymi zasadami logiki, wszystkie rozkłady zmiennych niezależnych są odpowiedziami na twoje pytanie.

X, Y

$X,Y$

F

$F$

F

$F$

whuber

@ Whuber, masz oczywiście rację. Dodałem tekst związany z motywacją tego pytania, które - mam nadzieję - wyjaśnia moją motywację.

Alecos Papadopoulos

Z jakimi informacjami zaczniesz przy podejmowaniu tej decyzji? Na podstawie sformułowania twojego przykładu wydaje się, że masz marginalny pdf dla każdej zmiennej i informację, że każda para zmiennych jest nieskorelowana. Następnie decydujesz, czy są one również niezależne. Czy to jest dokładne?

Prawdopodobieństwo jest

„Niemniej jednak, jeśli dwie zmienne są normalnie rozmieszczone, wówczas nieskorelacja implikuje niezależność” jest bardzo powszechnym błędem .

Ma to zastosowanie tylko wtedy, gdy są wspólnie dystrybuowane normalnie.

Kontrprzykład, który najczęściej widziałem, to normalny i niezależny Rademacher (więc jest to 1 lub -1 z prawdopodobieństwem 0,5 dla każdego); wtedy jest również normalne (jasne, biorąc pod uwagę jego funkcję dystrybucji), nazwa (problemem tutaj jest pokazanie np. przez iterację oczekiwania na i zauważając, że to lub z prawdopodobieństwem 0,5 każdego) i jasne jest, że zmienne są zależne (np. Jeśli znam to albo lub , więc informacja o $X \sim N(0,1)$ $Y$ $Z=XY$ $\operatorname{Cov}(X,Z)=0$ $\mathbb{E}(XZ)=0$ $Y$ $XZ$ $X^2$ $-X^2$ $X>2$ $Z>2$ $Z<-2$ $X$ daje mi informacje o ). $Z$

Warto również pamiętać, że rozkłady krańcowe nie jednoznacznie określają rozkład połączeń. Weź dowolne dwa prawdziwe RV i z marginalnymi CDF i . Następnie dla dowolnego funkcja: $X$ $Y$ $F_X(x)$ $G_Y(y)$ $\alpha<1$

H_{X, Y} (x, y) = F_{X} (x) G_{Y} (y) (1 + α (1 - F_{X} (x)) (1 - F_{Y} (y)))

$H_{X,Y}(x,y)=F_X(x)G_Y(y)\left(1+\alpha\big(1-F_X(x)\big)\big(1-F_Y(y)\big)\right)$

będzie dwuwymiarowym CDF. (Aby uzyskać krańcowy z weź limit, gdy idzie do nieskończoności, gdzie dla ) Oczywiście, wybierając różne wartości z można uzyskać różne wspólne rozkłady! $F_X(x)$ $H_{X,Y}(x,y)$ $y$ $F_Y(y)=1$ $Y$ $\alpha$

Silverfish
źródło

W rzeczy samej. Zapomniałem „wspólnego”.

Alecos Papadopoulos

@Alecos Skoro rozkłady krańcowe nie determinują ogólnie podziału wspólnego (właśnie zredagowałem moją odpowiedź, aby to wyjaśnić), gdzie to pozostawia twoje pytanie?

Silverfish,

@Alecos Wydaje mi się, że lepiej rozumiem istotę pytania: biorąc pod uwagę dwa rozkłady krańcowe, istnieje nieskończony zestaw możliwych rozkładów połączeń. W jakich okolicznościach narzucenie warunku zerowej kowariancji pozostawia nam tylko jeden z tych wspólnych rozkładów, wciąż możliwy, a mianowicie ten, w którym zmienne losowe są niezależne?

Silverfish,

Jeśli trzymam się dwuwymiarowego przypadku, ze wspólnym MGF i marginalnym MGF i , pytanie brzmi: kiedy oznacza, że ?

M_{X, Y} (s, t)

$M_{X,Y}(s,t)$

M_{X} (s) = M_{X, Y} (s, 0)

$M_X(s)=M_{X,Y}(s,0)$

M_{Y} (t) = M_{X, Y} (0, t)

$M_Y(t)=M_{X,Y}(0,t)$

\frac{\partial^{2}}{\partial s \partial t} M_{X, Y} (s, t) |_{s = 0, t = 0} = \frac{\partial}{\partial s} M_{X, Y} (s, t) |_{s = 0, t = 0} \cdot \frac{\partial}{\partial t} M_{X, Y} (s, t) |_{s = 0, t = 0}

$\frac{\partial^2}{\partial s \partial t}M_{X,Y}(s,t)|_{s=0,t=0} = \frac{\partial}{\partial s} M_{X,Y}(s,t)|_{s=0,t=0} \cdot \frac{\partial}{\partial t} M_{X,Y}(s,t)|_{s=0,t=0}$

M_{X, Y} (s, t) = M_{X, Y} (s, 0) \cdot M_{X, Y} (0, t)

$M_{X,Y}(s,t)=M_{X,Y}(s,0) \cdot M_{X,Y}(0,t)$

Silverfish,

@Silverman Chciałbym sprawdzić koncepcję niezależności , en.wikipedia.org/wiki/Subindependence , aby zobaczyć, czy problem ten można sformułować w kategoriach funkcji generowania momentu.

Alecos Papadopoulos

Dla jakich rozkładów brak korelacji oznacza niezależność?

Odpowiedzi: