Mam użyć kwadratu jądra wykładniczego (SE) do regresji procesu Gaussa. Zalety tego jądra są: 1) proste: tylko 3 hiperparametry; 2) gładka: to jądro jest gaussowskie.
Dlaczego ludzie tak bardzo lubią „gładkość”? Wiem, że jądro Gaussa jest nieskończenie zróżnicowane, ale czy to takie ważne? (Daj mi znać, jeśli istnieją inne powody, dla których jądro SE jest tak popularne).
PS: Powiedziano mi, że większość sygnałów w świecie rzeczywistym (bez szumu) jest płynna , więc rozsądne jest stosowanie gładkich jąder do ich modelowania. Czy ktoś mógłby mi pomóc zrozumieć tę koncepcję?
machine-learning
kakanana
źródło
źródło
Odpowiedzi:
„ Natura non facit saltus ” to stara zasada filozofii. Również piękno i harmonia są takimi zasadami. Inną filozoficzną zasadą, która ma wpływ na statystyki, jest myślenie jakościowe: tradycyjnie nie myślimy o rozmiarach efektów, ale o tym, czy efekt występuje, czy nie. To pozwoliło na testowanie hipotez. Estymatory są zbyt precyzyjne, aby można je było postrzegać przez naturę. Weź to takim, jakie jest.
Statystyka musi służyć ludzkiej percepcji. Punkty nieciągłości są więc nielubiane. Od razu można by zapytać: dlaczego właśnie na tym polega nieciągłość? Te punkty nieciągłości, szczególnie w szacowaniu gęstości, wynikają głównie z niesymptotycznego charakteru rzeczywistych danych. Ale nie chcesz uczyć się o pewnej skończonej próbce, ale o leżącym u jej podstaw naturalnym fakcie. Jeśli uważasz, że ta natura nie skacze, potrzebujesz płynnych szacunków.
Z ścisłego matematycznego punktu widzenia nie ma z tego powodu. Ponadto odkąd Leibniz i Newton poznali zjawiska naturalne, które nie są gładkie. Porozmawiaj z przyrodnikiem, dla którego pracujesz. Rzuć wyzwanie jego poglądowi na gładkość / nieciągłość, a następnie zrób to, co oboje postanowiliście być najbardziej pomocni dla jego zrozumienia.
źródło
Są jeszcze dwa powody praktycznych spraw. Po pierwsze, funkcje analityczne są znacznie łatwiejsze w pracy z matematyką, a zatem dowodzą twierdzeń o twoich algorytmach i dają im silniejsze podstawy.
Drugi to wrażliwość. Powiedz, że masz ucznia maszynowegoM. którego wyjście ma nieciągłość w x =x0 . Wtedy uzyskasz bardzo różne wyniki dlax0- ϵ i x0+ ϵ , ale to jest w porządku, ponieważ sprawiliśmy, że jest nieciągły. Teraz, jeśli trenujesz swój model z nieco innymi danymi (M.~ ), gdzie losowy hałas jest tylko trochę inny, nieciągłość będzie teraz x~0 , prawdopodobnie bardzo bliskox0 , ale nie do końca, a teraz dla niektórych wartości ϵ , x0+ ϵ ma zupełnie inną wartość M. i dla M.~ .
źródło
W zależności od problemu istnieje wiele motywacji. Ale idea jest taka sama: dodaj a priori wiedzę o pewnym problemie, aby osiągnąć lepsze rozwiązanie i poradzić sobie ze złożonością. Innym sposobem na wyrażenie tego jest: wybór modelu. Oto dobry przykład wyboru modelu .
Innym głęboko związanym z tym pomysłem jest znalezienie miary podobieństwa próbek danych (istnieją różne terminy odnoszące się do tego pomysłu: mapowania topograficzne, metryki odległości, różnorodne uczenie się, ...).
Rozważmy teraz praktyczny przykład: optyczne rozpoznawanie znaków. Jeśli weźmiesz obraz postaci, oczekujesz, że klasyfikator poradzi sobie z niezmiennikami: jeśli obrócisz, przesuniesz lub skalujesz obraz, powinien być w stanie go wykryć. Ponadto, jeśli zastosujesz nieco jedną modyfikację do danych wejściowych, możesz oczekiwać, że odpowiedź / zachowanie twojego klasyfikatora będzie się nieznacznie różnić, ponieważ obie próbki (oryginał i modyfikacja są bardzo podobne). Tutaj pojawia się wymuszenie płynności.
Istnieje wiele artykułów na ten temat, ale ten (niezmienność transformacji w rozpoznawaniu wzorów, odległości stycznej i propagacji stycznej, Simard i in.) Bardzo szczegółowo ilustruje te idee
źródło