Rysujemy próbek, każda o rozmiarze , niezależnie od rozkładu Normal .
Z próbek wybieramy następnie 2 próbki, które mają najwyższą (absolutną) korelację Pearsona ze sobą.
Jaka jest oczekiwana wartość tej korelacji?
Dzięki [PS To nie zadanie domowe]
Odpowiedzi:
Znalazłem następujący artykuł, który dotyczy tego problemu: Jiang, Tiefeng (2004). Rozkłady asymptotyczne największych wpisów macierzy korelacji próbek. The Annals of Applied Prawdopodobieństwo, 14 (2), 865-880
Jiang pokazuje asymptotyczny rozkład statystyki, gdzie jest korelacją między tym i tym losowym wektorem o długości (z ), wynosiLn=max1≤i<j≤N|ρij| ρij i j n i≠j
Najwyraźniej ten wynik dotyczy
wszelkich rozkładówdystrybucji z wystarczającą liczbą skończonych momentów ( edycja: patrz komentarz @ kardynała poniżej). Jiang zwraca uwagę, że jest to ekstremalny rozkład wartości typu I. Lokalizacja i skala sąOczekiwana wartość rozkładu EV typu I to , gdzie oznacza stałą Eulera. Jednakże, jak zauważono w komentarzach, konwergencja w dystrybucji sama w sobie nie gwarantuje konwergencji środków do dystrybucji ograniczającej.μ+σγ γ
Jeśli moglibyśmy pokazać taki wynik w tym przypadku, to asymptotyczna oczekiwana wartośćwynosiłabynL2n−4logn+log(log(n))
Należy zauważyć, że dałoby to asymptotyczną wartość oczekiwaną największej korelacji do kwadratu, podczas gdy pytanie dotyczyło oczekiwanej wartości największej korelacji bezwzględnej. Więc nie 100% tam, ale blisko.
Zrobiłem kilka krótkich symulacji, które doprowadziły mnie do wniosku, że albo 1) jest problem z moją symulacją (prawdopodobnie), 2) jest problem z moją transkrypcją / algebrą (prawdopodobnie również), lub 3) przybliżenie nie jest poprawne dla zastosowane wartości i I. Być może PO może zważyć niektóre wyniki symulacji przy użyciu tego przybliżenia?n N
źródło
Oprócz odpowiedzi udzielonej przez @jmtroos, poniżej znajdują się szczegóły mojej symulacji i porównanie z wyprowadzeniem @ jmtroos oczekiwań od Jiang (2004) , to znaczy:
Wartości tego oczekiwania wydają się przekraczać symulowane wartości dla małego i poniżej dla dużego i wydają się nieco różnić w miarę wzrostuJednak różnice zmniejszają się wraz ze wzrostem , jak można się spodziewać, ponieważ artykuł twierdzi, że rozkład jest asymptotyczny. Próbowałem różnych . Poniższa symulacja wykorzystuje . Jestem całkiem nowy w R, więc wszelkie wskazówki i sugestie dotyczące ulepszenia mojego kodu będą mile widziane.N N N n n∈[100,500] n=200
źródło