Próbowałem ustalić nierówność
gdzie to średnia próbki, a standardowe odchylenie próbki, to znaczy .
Łatwo zauważyć, że a więc ale to nie jest bardzo blisko tego, czego szukałem, ani nie jest to przydatne ograniczenie. Eksperymentowałem z Cauchy-Schwarzem i nierównościami trójkąta, ale nigdzie nie poszedłem. Musi być jakiś subtelny krok, którego mi brakuje. Byłbym wdzięczny za pomoc, dziękuję.
Po uproszczeniu problemu za pomocą rutynowych procedur można go rozwiązać, przekształcając go w program podwójnej minimalizacji, który ma dobrze znaną odpowiedź z podstawowym dowodem. Być może ta dualizacja jest „subtelnym krokiem”, o którym mowa w pytaniu. Nierówność można również ustalić w sposób czysto mechaniczny poprzez maksymalizację|Ti| przez mnożniki Lagrange'a.
Najpierw jednak oferuję bardziej eleganckie rozwiązanie oparte na geometrii najmniejszych kwadratów. Nie wymaga wstępnego uproszczenia i jest niemal natychmiastowy, zapewniając bezpośrednią intuicję w wyniku. Jak sugerowano w pytaniu, problem sprowadza się do nierówności Cauchy'ego-Schwarza.
Rozwiązanie geometryczne
Rozważaćx=(X1,X2,…,Xn) jako n -wymiarowy wektor w przestrzeni euklidesowej ze zwykłym iloczynem kropkowym. Pozwolićy=(0,0,…,0,1,0,…,0) być ith wektor podstawowy i 1=(1,1,…,1) . pisaćx^ i y^ dla rzutów ortogonalnych z x i y do ortogonalnego uzupełnienia 1 . (W terminologii statystycznej są to reszty w odniesieniu do średnich.) Następnie, odXi−X¯=x^⋅y i S=||x^||/n−1−−−−−√ ,
jest składnikiemy^ w x^ kierunek. Według Cauchy-Schwarz maksymalizuje się dokładnie, kiedyx^ jest równoległy do y^=(−1,−1,…,−1,n−1,−1,−1,…,−1)/n , dla którego
Nawiasem mówiąc, to rozwiązanie zapewnia wyczerpującą charakterystykę wszystkich przypadków, w których|Ti| jest zmaksymalizowany: wszystkie są formą
dla wszystkich prawdziwychμ,σ .
Ta analiza uogólnia się łatwo do przypadku, w którym{1} jest zastępowany przez dowolny zestaw regresorów. Najwyraźniej maksimumTi jest proporcjonalny do długości reszty y , ||y^|| .
Uproszczenie
PonieważTi jest niezmienny w przypadku zmian lokalizacji i skali, możemy założyć bez utraty ogólności, że Xi suma do zera, a ich kwadraty do n−1 . To identyfikuje|Ti| z |Xi| , od S (średni kwadrat) to 1 . Maksymalizacja jest równoznaczna z maksymalizacją|Ti|2=T2i=X2i . Przyjmowanie nie powoduje utraty ogólnościi=1 , ponieważ, ponieważ Xi są wymienne.
Rozwiązanie dzięki podwójnemu sformułowaniu
Podwójnym problemem jest ustalenie wartościX21 i zapytaj, jakie wartości pozostałych Xj,j≠1 są potrzebne, aby zminimalizować sumę kwadratów∑nj=1X2j jeśli się uwzględni ∑nj=1Xj=0 . PonieważX1 jest podane, jest to problem minimalizacji ∑nj=2X2j jeśli się uwzględni ∑nj=2Xj=−X1 .
Rozwiązanie można łatwo znaleźć na wiele sposobów. Jednym z najbardziej elementarnych jest pisanie
dla którego∑nj=2εj=0 . Rozszerzenie funkcji celu i wykorzystanie tej tożsamości sumowania do zera w celu jej uproszczenia daje
od razu pokazuje unikalne rozwiązanieεj=0 dla wszystkich j . W przypadku tego rozwiązania
i
QED .
Rozwiązanie za pomocą maszyn
Wróć do uproszczonego programu, od którego zaczęliśmy:
z zastrzeżeniem
Metoda mnożników Lagrange'a (która jest prawie czysto mechaniczna i prosta) utożsamia nietrywialną liniową kombinację gradientów tych trzech funkcji do zera:
Te elementy po komponencien równania są
Ostatnin−1 z nich implikuje również X2=X3=⋯=Xn=−λ2/(2λ3) lub λ2=λ3=0 . (Możemy wykluczyć ten drugi przypadek, ponieważ wówczas implikuje pierwsze równanieλ1=0 , trywializacja kombinacji liniowej.) Powstaje ograniczenie sumy do zera X1=−(n−1)X2 . Ograniczenie sumy kwadratów zapewnia dwa rozwiązania
Oboje ulegają
źródło
Podana nierówność jest prawdziwa. Intuicyjnie jasne jest, że otrzymujemy najtrudniejszy przypadek nierówności (to znaczy maksymalizacji lewej stronyS2 ), wybierając jedną wartość, powiedzmy x1 tak duży, jak to możliwe, przy równych wszystkich pozostałych. Spójrzmy na przykład z taką konfiguracją:
EDYTOWAĆ
Udowodnimy teraz roszczenie, jak wskazano powyżej. Po pierwsze, dla dowolnego wektorax=(x1,x2,…,xn) w tym problemie możemy go zastąpić x−x¯ bez zmiany żadnej ze stron nierówności powyżej. Przyjmijmy, że poniżejx¯=0 . Możemy również założyć, że poprzez ponowne oznakowaniex1 jest największy. Następnie, wybierając najpierwx1>0 i wtedy x2=x3=⋯=xn=−x1n−1 możemy sprawdzić za pomocą prostej algebry, czy mamy równość w twierdzonej nierówności. To jest ostre.
Następnie zdefiniuj region (wypukły)R przez
źródło