Powiedzmy na przykład, że robisz model liniowy, ale dane są złożone.
Mój zestaw danych jest złożony, ponieważ we wszystkich liczbach mają postać . Czy jest coś proceduralnie odmiennego podczas pracy z takimi danymi?
Pytam, bo skończysz na otrzymywaniu złożonych macierzy kowariancji i statystykach testowych, które są złożone.
Czy podczas wykonywania najmniejszych kwadratów musisz użyć transpozycji sprzężonej zamiast transpozycji? czy złożona kowariancja ma znaczenie?
Odpowiedzi:
Podsumowanie
Uogólnienie regresji metodą najmniejszych kwadratów do zmiennych o wartościach zespolonych jest proste, polegające przede wszystkim na zastąpieniu transpozycji macierzy transpozycjami sprzężonymi w zwykłych formułach macierzy. Jednak regresja o złożonej wartości odpowiada skomplikowanej regresji wielowymiarowej wieloczynnikowej, której rozwiązanie byłoby znacznie trudniejsze do uzyskania przy użyciu standardowych metod (zmiennej rzeczywistej). Dlatego, gdy model o wartościach zespolonych ma sens, zdecydowanie zaleca się stosowanie złożonej arytmetyki w celu uzyskania rozwiązania. Ta odpowiedź zawiera także kilka sugerowanych sposobów wyświetlania danych i prezentacji wykresów diagnostycznych dopasowania.
Dla uproszczenia omówmy przypadek regresji zwykłej (jednoczynnikowej), którą można zapisać
Pozwoliłem sobie nazwać zmienną niezależną i zmienną zależną , która jest umowna (patrz na przykład Lars Ahlfors, Analiza złożona ). Wszystko, co następuje, można łatwo rozszerzyć na ustawienie regresji wielokrotnej.ZW Z
Interpretacja
Model ten łatwo uwidocznić interpretacji geometryczne: mnożenie przez będzie przeskalowanie przez moduł i obrócić ją wokół pochodzeniu argumentu . Następnie dodanie tłumaczy wynik o tę kwotę. Efektem jest „drżenie” tego tłumaczenia. Zatem regresowanie na w ten sposób jest próbą zrozumienia zbioru punktów 2D wynikającego z konstelacji punktów 2Dw j β 1 β 1 β 0 ε j z j w j ( z j ) ( w j )β1 wj β1 β1 β0 εj zj wj (zj) (wj) poprzez taką transformację, dopuszczając pewien błąd w procesie. Ilustruje to rysunek zatytułowany „Dopasuj jako transformację”.
Należy zauważyć, że przeskalowanie i obrót nie są po prostu żadną liniową transformacją płaszczyzny: wykluczają na przykład transformacje skośne. Zatem ten model nie jest tym samym co dwuwymiarowa regresja wielokrotna z czterema parametrami.
Zwykłe najmniejsze kwadraty
Aby połączyć złożoną sprawę ze sprawą prawdziwą, napiszmy
Ponadto, dla parametrów napisz
β 1 = γ 1 + i δ 1β0=γ0+iδ0 i . β1=γ1+iδ1
Każdy z wprowadzonych nowych terminów jest oczywiście prawdziwy, a jest wyimaginowane, zaś indeksuje dane.j = 1 , 2 , … , ni2=−1 j=1,2,…,n
OLS znajduje i które minimalizują sumę kwadratów odchyleń, β 1β^0 β^1
Formalnie jest to identyczne ze zwykłym sformułowaniem macierzowym: porównaj to z Jedyną różnicą, którą widzimy, jest to, że transpozycja macierzy projektowej jest zastąpiona sprzężoną transpozycją . W związku z tym formalnym rozwiązaniem macierzy jestX ′ X ∗ = ˉ X ′(z−Xβ)′(z−Xβ). X′ X∗=X¯′
Jednocześnie, aby zobaczyć, co można osiągnąć, umieszczając to w problemie o wyłącznie rzeczywistej zmiennej, możemy napisać cel OLS pod względem rzeczywistych składników:
Widocznie ta obejmuje dwie połączone rzeczywiste regresji: jeden z nich ulega zmniejszeniu o i , do pozostałych cofa o i ; i wymagamy, aby współczynnik dla był ujemny współczynnika dla a współczynnik dla równy współczynnik dla . Ponadto, ponieważ ogółemu v y u v v x u y u x v y x yx u v y u v v x u y u x v y kwadraty reszt z dwóch regresji należy zminimalizować, zwykle nie będzie tak, że którykolwiek zestaw współczynników da najlepsze oszacowanie dla samego lub . Potwierdza to poniższy przykład, w którym oddzielnie przeprowadza się dwie prawdziwe regresje i porównuje ich rozwiązania z regresją złożoną.x y
Ta analiza pokazuje, że przepisanie złożonej regresji w kategoriach części rzeczywistych (1) komplikuje formuły, (2) przesłania prostą interpretację geometryczną i (3) wymagałoby uogólnionej regresji wieloczynnikowej wielorakiej (z nietrywialnymi korelacjami między zmiennymi ) rozwiązać. Możemy zrobić lepiej.
Przykład
Jako przykład biorę siatkę wartościach w integralnych punktów pobliżu pochodzenia w płaszczyźnie zespolonej. Do przekształconych wartości dodaje się błędy id mające dwuwymiarowy rozkład Gaussa: w szczególności rzeczywiste i urojone części błędów nie są niezależne.w βw wβ
Trudno jest narysować zwykły wykres rozproszenia dla zmiennych złożonych, ponieważ składałby się on z punktów w czterech wymiarach. Zamiast tego możemy zobaczyć matrycę wykresu rozrzutu ich rzeczywistych i urojonych części.(wj,zj)
Na razie zignoruj dopasowanie i spójrz na cztery górne wiersze i cztery lewe kolumny: wyświetlają one dane. Okrągła siatka widoczna jest w lewym górnym rogu; ma punktów. Wykresy rozrzutu składników względem składników wykazują wyraźne korelacje. Trzy z nich mają ujemne korelacje; tylko (urojona część ) (rzeczywista część ) są dodatnio skorelowane.81 w z y z u ww 81 w z y z u w
Dla tych danych prawdziwą wartością jest . Reprezentuje rozszerzenie o i obrót o 120 stopni w kierunku przeciwnym do ruchu wskazówek zegara, a następnie przesunięcie o jednostek w lewo i jednostek w górę. Obliczam trzy pasowania: złożone rozwiązanie najmniejszych kwadratów i dwa rozwiązania OLS dla i osobno, dla porównania.( - 20 + 5 i , - 3 / 4 + 3 / 4 √β 3/2205(xJ)(rj)(−20+5i,−3/4+3/43–√i) 3/2 20 5 (xj) (yj)
Zawsze będzie tak, że przechwytywanie tylko rzeczywiste zgadza się z rzeczywistą częścią przechwytywania złożonego, a przechwytywanie tylko wyobrażeniowe zgadza się z częścią urojoną przechwytywania złożonego. Oczywiste jest jednak, że zbocza tylko rzeczywiste i wyobrażone nie zgadzają się ze złożonymi współczynnikami nachylenia ani ze sobą, dokładnie tak, jak przewidywano.
Przyjrzyjmy się bliżej wynikom złożonego dopasowania. Po pierwsze, wykres reszt zawiera wskazanie ich dwuwymiarowego rozkładu Gaussa. (Podstawowy rozkład ma marginalne odchylenia standardowe i korelację .) Następnie możemy wykreślić wielkości reszt (reprezentowane przez rozmiary okrągłych symboli) i ich argumenty (reprezentowane przez kolory dokładnie tak, jak na pierwszym wykresie) w stosunku do dopasowanych wartości: ta fabuła powinna wyglądać jak losowy rozkład rozmiarów i kolorów, co robi.0,82 0.8
Wreszcie możemy przedstawić dopasowanie na kilka sposobów. Dopasowanie pojawiło się w ostatnich wierszach i kolumnach macierzy wykresu rozrzutu ( qv ) i może być warte bliższego przyjrzenia się temu punktowi. Poniżej po lewej pasowania są wykreślone jako otwarte niebieskie kółka, a strzałki (reprezentujące resztki) łączą je z danymi, pokazanymi jako ciągłe czerwone kółka. Po prawej stronie są pokazane jako otwarte czarne kółka wypełnione kolorami odpowiadającymi ich argumentom; są one połączone strzałkami z odpowiednimi wartościami . Przypomnij sobie, że każda strzałka przedstawia rozszerzenie o wokół początku, obrót o stopni i tłumaczenie o , plus ten dwuwymiarowy błąd Guassiana.( z j ) 3 / 2 120 ( - 20 , 5 )(wj) (zj) 3/2 120 (−20,5)
Te wyniki, wykresy i wykresy diagnostyczne wszystkie sugerują, że formuła regresji złożonej działa poprawnie i osiąga coś innego niż oddzielne regresje liniowe rzeczywistych i urojonych części zmiennych.
Kod
R
Kod do tworzenia danych, drgawki, a działki znajduje się poniżej. Zauważ, że rzeczywiste rozwiązanie uzyskuje się w jednym wierszu kodu. Dodatkowa praca - ale nie za duża - byłaby potrzebna do uzyskania zwykłego wyniku najmniejszych kwadratów: macierzy wariancji-kowariancji dopasowania, błędów standardowych, wartości p itp.źródło
zapsmall
wR
). W przeciwnym razie jest to znak, że coś jest zasadniczo nie tak.Po ładnym długim wyszukiwaniu w Google znalazłem kilka istotnych informacji na temat alternatywnego zrozumienia problemu. Okazuje się, że podobne problemy są dość powszechne w statystycznym przetwarzaniu sygnałów. Zamiast zaczynać od prawdopodobieństwa gaussowskiego, które odpowiada liniowym najmniejszym kwadratom dla rzeczywistych danych, zaczyna się od:
http://en.wikipedia.org/wiki/Complex_normal_distribution
Ta strona Wikipedii daje zadowalające podsumowanie tego obiektu.
W szczególności, jeśli można założyć, że rozkład estymatora jest wieloramienny gaussowski, to w przypadku złożonych danych można użyć złożonej normalnej. Obliczenie kowariancji tego estymatora jest nieco inne i podane na stronie wiki.β^
Innym źródłem, które znalazłem, który dochodzi do tego samego wniosku co whuber, ale bada inne estymatory, takie jak maksymalne prawdopodobieństwo, to: „Oszacowania niewłaściwych modeli regresji liniowej”, autorstwa Yan i in.
źródło
Podczas gdy @whuber ma pięknie zilustrowaną i dobrze wyjaśnioną odpowiedź, myślę, że jest to uproszczony model, w którym brakuje pewnej mocy złożonej przestrzeni.
Liniowa regresja najmniejszych kwadratów na liczbach rzeczywistych odpowiada poniższemu modelowi z danymi wejściowymi , parametrami i celem :w β x
gdzie jest normalnie rozłożony z zerową średnią i pewną (zwykle stałą) wariancją.ϵ
Proponuję zdefiniować złożoną regresję liniową w następujący sposób:
Istnieją dwie główne różnice.
Po pierwsze, istnieje dodatkowy stopień swobody który pozwala na czułość fazową. Możesz tego nie chcieć, ale możesz to łatwo mieć.β2
Po drugie, jest złożonym rozkładem normalnym o zerowej średniej i pewnej wariancji i „pseudo-wariancji”.ϵ
Wracając do prawdziwego modelu, wychodzi zwykłe rozwiązanie najmniejszych kwadratów minimalizujące straty, które są ujemnym prawdopodobieństwem logarytmicznym. Dla rozkładu normalnego jest to parabola:
gdzie , jest stałe (zwykle), jest zerowe jak w modelu, a nie ma znaczenia, ponieważ funkcje straty są niezmienne przy stałym dodawaniu.x=z−(β0+β1w) a c d
Wracając do modelu złożonego, ujemne prawdopodobieństwo logarytmu to
Oto obraz gęstości złożonego rozkładu normalnego:
Zauważ, jak to jest asymetryczne. Bez parametru nie może być asymetryczny.b
To komplikuje regresję, chociaż jestem pewien, że rozwiązanie jest nadal analityczne. Rozwiązałem to dla przypadku jednego wejścia i cieszę się, że mogę tutaj przepisać moje rozwiązanie, ale mam wrażenie, że whuber może rozwiązać ogólny przypadek.
źródło
Ten problem pojawił się ponownie w Mathematica StackExchange, a moja odpowiedź / rozszerzony komentarz jest taki, że należy postępować zgodnie z doskonałą odpowiedzią @whuber.
Moja odpowiedź tutaj jest próbą rozszerzenia odpowiedzi @whuber tylko przez uszczegółowienie struktury błędu. Proponowany estymator najmniejszych kwadratów byłby wykorzystany, gdyby dwuwymiarowy rozkład błędów miał zerową korelację między składową rzeczywistą a urojoną. (Ale wygenerowane dane mają korelację błędów wynoszącą 0,8.)
Jeśli ktoś ma dostęp do programu algebry symbolicznej, to można wyeliminować część bałaganu związanego z konstruowaniem estymatorów maksymalnego prawdopodobieństwa parametrów (zarówno efektów „ustalonych”, jak i struktury kowariancji). Poniżej używam tych samych danych, co w odpowiedzi @whuber i konstruuję szacunki maksymalnego prawdopodobieństwa, przyjmując a następnie przyjmując . Użyłem Mathematiki, ale podejrzewam, że każdy inny program algebry symbolicznej może zrobić coś podobnego. (I najpierw opublikowałem zdjęcie kodu i wyniku, a następnie rzeczywisty kod w dodatku, ponieważ nie mogę sprawić, by kod Mathematica wyglądał tak, jak powinien, używając tylko tekstu.)ρ=0 ρ≠0
Teraz dla maksymalnych oszacowań prawdopodobieństwa przy założeniu ...ρ=0
Widzimy, że szacunki maksymalnego prawdopodobieństwa, które zakładają, że idealnie pasują do oszacowań całkowitej liczby najmniejszych kwadratów.ρ=0
Teraz pozwól danym określić szacunkową wartość dla :ρ
Widzimy, że i są zasadniczo identyczne bez względu na to, czy zezwalamy na oszacowanie . Ale jest znacznie bliższa wartości, która wygenerowała dane (chociaż wnioskowania o wielkości próby 1 nie powinny być uważane za ostateczne co najmniej), a log prawdopodobieństwa jest znacznie wyższy.γ0 δ0 ρ γ1
Chodzi mi o to, że dopasowanie modelu musi być całkowicie jednoznaczne, a symboliczne programy algebry mogą pomóc złagodzić bałagan. (I oczywiście estymatory maksymalnego prawdopodobieństwa zakładają dwuwymiarowy rozkład normalny, którego nie przyjmują estymatory najmniejszych kwadratów.)
Dodatek: Pełny kod Mathematica
źródło