Pytanie to jest więc nieco związane, ale starałem się, aby było to jak najbardziej proste.
Cel: Krótko mówiąc, istnieje pochodna negentropii, która nie obejmuje kumulantów wyższego rzędu, i próbuję zrozumieć, w jaki sposób została wyprowadzona.
Tło: (Rozumiem to wszystko)
Sam studiuję książkę „Independent Component Analysis” , którą znalazłem tutaj. (To pytanie pochodzi z sekcji 5.6, w przypadku, gdy masz książkę - „Aproksymacja Entropii przez funkcje niepolarne”).
Mamy , która jest zmienną losową i której negentropy chcemy oszacować na podstawie niektórych naszych obserwacji. Plik PDF z jest podany przez . Negentropy to po prostu różnica między entropią różnicową znormalizowanej zmiennej losowej Gaussa a entropią różnicową . Różnicowa entropia jest tutaj podana przez , tak że:x p x ( ζ ) x wys
a więc negentropy podaje
gdzie jest znormalizowanym rv Gaussa, z PDF podanym przez .ϕ ( ζ )
Teraz, w ramach tej nowej metody, moja książka uzyskała szacunkową wartość pliku PDF , podaną przez:
(Gdzie . Dzięki temu to nie moc, ale indeks zamiast).i
Na razie „akceptuję” tę nową formułę PDF i zapytam o nią następnego dnia. To nie jest mój główny problem. Co robi teraz chociaż, to podłączyć tę wersję PDF powrotem do negentropia równania, a kończy się z:
Pamiętaj, że sigma (tutaj i przez resztę postu), po prostu pętle wokół indeksu . Na przykład, gdybyśmy mieli tylko dwie funkcje, sygnał zapętliby się dla i . Oczywiście powinienem powiedzieć o tych funkcjach, których używa. Najwyraźniej funkcje są zdefiniowane następująco:i = 2 i = 2 F i
Funkcje nie są w tym przypadku funkcjami wielomianowymi. (Zakładamy, że rv jest średnią zerową i wariancji jednostkowej). Zróbmy teraz pewne ograniczenia i podajmy właściwości tych funkcji: x
Aby uprościć obliczenia, przyjmijmy inne, czysto techniczne założenie: funkcje , tworzą układ ortonormalny jako taki:
i
Prawie na miejscu! OK, więc to wszystko było tłem, a teraz pytanie. Zadanie polega zatem na umieszczeniu tego nowego pliku PDF w formule entropii różnicowej . Jeśli to zrozumiem, zrozumiem resztę. Teraz książka podaje pochodne (i zgadzam się z tym), ale utknąłem pod koniec, ponieważ nie wiem / nie widzę, jak to anuluje. Nie wiem też, jak interpretować zapis small-o z rozszerzenia Taylora.
Oto wynik:
Używając rozszerzenia Taylora , dla otrzymujemy:H(x)
a więc
Pytanie: (Nie rozumiem tego)
Zatem mój problem: z wyjątkiem , nie rozumiem, w jaki sposób otrzymał ostatnie 4 warunki w ostatnim równaniu. (tzn. 0, 0 i ostatnie 2 warunki). Rozumiem wszystko wcześniej. Mówi, że wykorzystał relacje ortogonalności podane w powyższych właściwościach, ale nie wiem, jak to zrobić. (Nie rozumiem też tutaj małej notacji w sensie, w jaki sposób jest ona używana?)
DZIĘKI!!!!
EDYTOWAĆ:
Poszedłem dalej i dodałem zdjęcia z książki, którą czytam, w zasadzie mówi to, co powiedziałem powyżej, ale na wypadek, gdyby ktoś potrzebował dodatkowego kontekstu.
I tutaj, zaznaczony na czerwono, jest dokładnie ta część, która mnie dezorientuje. W jaki sposób wykorzystuje właściwości ortogonalności, aby uzyskać ostatnią część, w której wszystko się anuluje, i końcowe podsumowania z udziałem i podsumowanie z małą notacją?
źródło
Odpowiedzi:
Najpierw przypomnij sobie, że są stałymi (są to wartości oczekiwane, liczby!), Więc można je wyprowadzić poza całki (jeśli go nie widzisz, zauważ, że Jeśli notacja Ci przeszkadza, po prostu zmień przez na ).ci
>> Aby uzyskać warunki zerowe:
Przypomnij sobie, że . Jak sugeruje @cardinal, musisz jawnie napisać , co jest równe: Mając to pod ręką, należy zauważyć, że: gdzie Upuściłem stałe poza całkami.φ(ξ)=exp(−ξ2/2)/2π−−√ logφ(ξ)
Stąd zauważ, że w (5.39) podano, że wynosi dla . Całka pierwszego terminu po prawej stronie równania. ma tę postać (z ) i całkę również w drugim członie (z ). Musisz po prostu wykorzystać ten fakt na sumach i gotowe!∫φ(ξ)Fi(ξ)ξk 0 k=0,1,2 (1) k=2 k=0
>> Aby uzyskać warunki :∑c2i
Zauważ, że całka, którą należy uzyskać, aby uzyskać te warunki, to: Możemy użyć twierdzenia wielomianowego do rozszerzenia sumy do kwadratu. To daje nam: Jednak ponownie od (5.39) zauważ, że wszystkie warunki w tej sumie, które obejmują całki dla postaci wynoszą zero dla a jeden dla . nam wynik
>> Informacje notacjio(whatever)
Myślę, że jest to dość mylące dla autorów, ale pamiętam, że używają go tylko po to, aby oznaczać, że istnieją warunki porządku każdym razem, gdy wstawiają (tj. Tak jak duże -O notacja). Jednak, jak skomentował @Macro tę samą odpowiedź, istnieje różnica między notacją big-O a małą-O. Może powinieneś sam sprawdzić i sprawdzić, który z nich pasuje do problemu w tym artykule w Wikipedii .o ( cokolwiek )whatever o(whatever)
PS: Nawiasem mówiąc, to świetna książka. Artykuły autorów na ten temat są również bardzo dobre i należy je przeczytać, jeśli próbujesz zrozumieć i wdrożyć ICA.
źródło