Zatem w rozkładzie normalnym mamy dwa parametry: średnią i wariancję . W książce Rozpoznawanie wzorców i uczenie maszynowe nagle pojawia się hiperparametr w terminach regularyzacji funkcji błędu.σ 2 λ
Co to są hiperparametry? Dlaczego są tak nazwani? W jaki sposób intuicyjnie różnią się one od parametrów w ogóle?
Odpowiedzi:
Termin hiperparametr jest dość niejasny. Użyję go, aby odnieść się do parametru znajdującego się na wyższym poziomie hierarchii niż inne parametry. Na przykład rozważ model regresji ze znaną wariancją (w tym przypadku 1)
a następnie z wyprzedzeniem parametrów, np
Tutaj określa rozkład a określa rozkład dla . Kiedy chcę po prostu odwołać się do mogę nazwać go parametrem, a gdy chcę po prostu odwołać się do , mogę nazwać go hiperparametrem.λ β β y β λ
Nazywanie staje się bardziej skomplikowane, gdy parametry pojawiają się na wielu poziomach lub gdy jest więcej poziomów hierarchicznych (i nie chcesz używać terminu hyperhyperparameters). Najlepiej, jeśli autor dokładnie określi, co rozumie się, gdy użyje do tego terminu hiperparametru lub parametru.
źródło
Hiperparametr to po prostu parametr, który wpływa, całkowicie lub częściowo, na inne parametry. Nie rozwiązują bezpośrednio problemu optymalizacji, który napotykasz, ale raczej optymalizują parametry, które mogą rozwiązać problem (stąd hiper , ponieważ nie są częścią problemu optymalizacji, ale są raczej „dodatkami”). Z tego, co widziałem, ale nie mam odniesienia, związek ten jest jednokierunkowy (na hiperparametr nie mogą mieć wpływu parametry, na które ma wpływ, stąd też hiper ). Zazwyczaj są one wprowadzane w schematach regularyzacji lub metaoptymalizacji.
Na przykład parametr może swobodnie wpływać na i aby dostosować się do kosztu regularyzacji (ale i nie mają wpływu na ). Zatem jest hiperparametrem dla i . Jeśli miałbyś dodatkowy parametr wpływający na , byłby to hiperparametr dla i hiper-nadparametr dla i (ale nigdy nie widziałem tej nomenklatury, ale nie sądzę, że to byłoby złe gdybym to widział).λ μ σ μ σ λ λ μ σ τ λ λ μ σ
Uważam, że koncepcja hiperparametrów jest bardzo przydatna do sprawdzania poprawności krzyżowej, ponieważ przypomina ona o hierarchii parametrów, a jednocześnie przypomina, że jeśli nadal modyfikujesz (hiper-) parametry, nadal sprawdzasz poprawność krzyżową i nie generalizujesz, więc musisz zachowaj ostrożność przy swoich wnioskach (aby uniknąć okrągłego myślenia).
źródło
Pozostałe wyjaśnienia są nieco niejasne; oto bardziej konkretne wyjaśnienie, które powinno to wyjaśnić.
Hiperparametry to parametry tylko modelu , a nie modelowanego procesu fizycznego. Wprowadzasz je „sztucznie”, aby Twój model „działał” w obecności skończonych danych i / lub skończonego czasu obliczeń . Gdybyś miał nieskończoną moc do mierzenia lub obliczania czegokolwiek, hiperparametry nie istniałyby w twoim modelu, ponieważ nie opisywałyby żadnego fizycznego aspektu rzeczywistego układu.
Z drugiej strony regularne parametry to te, które opisują system fizyczny, a nie są jedynie modelowaniem artefaktów.
źródło
Nie jest to precyzyjnie zdefiniowany termin, więc przedstawię jeszcze jedną definicję, która wydaje się być spójna z powszechnym użyciem.
Pozwólcie mi to rozwinąć na przykładzie regresji grzbietu. W regresji grzbietu rozwiązujemy następujący problem optymalizacji:
źródło
Jak dokładnie wskazał @jaradniemi, jedno użycie terminu hiperparametr pochodzi z modelowania hierarchicznego lub wielopoziomowego, w którym masz kaskadę modeli statystycznych, jeden zbudowany nad / pod innymi, przy użyciu zwykle warunkowych stwierdzeń prawdopodobieństwa.
Ale ta sama terminologia pojawia się również w innych kontekstach o różnych znaczeniach. Na przykład, widziałem termin „ hiperparametr” używany w odniesieniu do parametrów symulacji (długość przebiegu, liczba niezależnych replikacji, liczba oddziaływujących cząstek w każdej replikacji itp.) Modelu stochastycznego, który nie wynikał z wielopoziomowego modelowanie.
źródło