Jak działa zasada Razam Occam w uczeniu maszynowym

11

Niedawno podczas jednego z egzaminów zadano następujące pytanie wyświetlone na obrazku. Nie jestem pewien, czy poprawnie zrozumiałem zasadę brzytwy Ockhama, czy nie. Zgodnie z rozkładami i granicami decyzji podanymi w pytaniu i po brzytwach Ockhama granica decyzji B w obu przypadkach powinna być odpowiedzią. Ponieważ jak w przypadku Razora Razama, wybierz prostszy klasyfikator, który wykonuje przyzwoitą pracę, a nie skomplikowaną.

Czy ktoś może zeznawać, czy moje rozumowanie jest prawidłowe, a wybrana odpowiedź jest odpowiednia, czy nie? Proszę o pomoc, ponieważ jestem dopiero początkującym uczeniem maszynowym

pytanie

użytkownik1479198
źródło
2
3.328 „Jeśli znak nie jest konieczny, to nie ma znaczenia. Takie jest znaczenie brzytwy Ockhama.” From Tractatus Logico-Philosophicus Wittgenstein
Jorge Barrios

Odpowiedzi:

13

Zasada brzytwy Ockhama:

Mając dwie hipotezy (tutaj granice decyzyjne), które wiążą się z tym samym ryzykiem empirycznym (tutaj błąd szkolenia), krótkie wyjaśnienie (tutaj granica z mniejszą liczbą parametrów) wydaje się być bardziej aktualne niż długie wyjaśnienie.

W twoim przykładzie zarówno A, jak i B mają zerowy błąd treningowy, dlatego preferowane jest B (krótsze wyjaśnienie).

Co jeśli błąd szkolenia nie jest taki sam?

Jeśli granica A miała mniejszy błąd treningowy niż B, wybór staje się trudny. Musimy obliczyć „wielkość wyjaśnienia” tak samo jak „ryzyko empiryczne” i połączyć dwa w jednej funkcji punktacji, a następnie przejść do porównania A i B. Przykładem może być Kryterium Informacyjne Akaike (AIC), które łączy ryzyko empiryczne (mierzone z wynikiem ujemnym log-prawdopodobieństwo) i rozmiar wyjaśnienia (mierzony liczbą parametrów) w jednym wyniku.

Na marginesie, AIC nie może być stosowany we wszystkich modelach, istnieje również wiele alternatyw dla AIC.

Związek z zestawem walidacyjnym

W wielu praktycznych przypadkach, gdy model postępuje w kierunku większej złożoności (większe wyjaśnienie) w celu osiągnięcia niższego błędu treningu, AIC i tym podobne można zastąpić zestawem walidacyjnym (zestawem, w którym model nie jest szkolony). Zatrzymujemy postęp, gdy błąd sprawdzania poprawności (błąd modelu w zestawie sprawdzania poprawności) zaczyna się zwiększać. W ten sposób osiągamy równowagę między niskim błędem treningu a krótkim wyjaśnieniem.

E-mail
źródło
3

Occam Razor jest tylko synonimem dyrektora Parsimony. (KISS, Niech to będzie proste i głupie.) Większość alg pracuje w tej zasadzie.

W powyższym pytaniu należy pomyśleć przy projektowaniu prostych oddzielnych granic,

jak na pierwszym obrazku odpowiedź D1 to B. Ponieważ definiuje najlepszą linię oddzielającą 2 próbki, jako a jest wielomianem i może skończyć się zbytnim dopasowaniem. (gdybym użył SVM, ten wiersz by przyszedł)

podobnie na rysunku 2 odpowiedź D2 to B.

Gaurav Dogra
źródło
2

Brzytwa Occama w zadaniach dopasowywania danych:

  1. Najpierw spróbuj równania liniowego
  2. Jeśli (1) niewiele pomaga - wybierz nieliniowy z mniejszymi terminami i / lub mniejszymi stopniami zmiennych.

D2

Bwyraźnie wygrywa, ponieważ jest to liniowa granica, która ładnie oddziela dane. (Co jest „ładnie”, którego obecnie nie mogę zdefiniować. Musisz rozwinąć to uczucie z doświadczeniem). Agranica jest wysoce nieliniowa, co wydaje się być roztrzęsioną falą sinusoidalną.

D1

Jednak nie jestem tego pewien. Agranica jest jak koło i Bjest ściśle liniowa. IMHO, dla mnie - linia graniczna nie jest ani segmentem okręgu, ani segmentem linii, - to krzywa paraboli:

wprowadź opis zdjęcia tutaj

Więc wybieram C:-)

Agnius Vasiliauskas
źródło
Nadal nie jestem pewien, dlaczego chcesz linii pośredniej dla D1. Brzytwa Ockhama mówi, aby użyć prostego rozwiązania, które działa. W przypadku braku większej ilości danych B jest idealnie poprawnym podziałem, który pasuje do danych. Gdybyśmy otrzymali więcej danych, które sugerują więcej krzywej do zbioru danych B, wtedy mógłbym zobaczyć twój argument, ale żądanie C jest sprzeczne z twoim punktem (1), ponieważ działa liniowa granica.
Delioth,
Ponieważ jest dużo pustej przestrzeni od Blinii do lewej okrągłej grupy punktów. Oznacza to, że każdy przybywający nowy losowy punkt ma bardzo dużą szansę przypisania do klastra po lewej stronie i bardzo małą szansę na przypisanie do klastra po prawej stronie. Zatem Blinia nie jest optymalną granicą w przypadku nowych losowych punktów na płaszczyźnie. I nie można zignorować losowości danych, ponieważ zazwyczaj zawsze następuje przypadkowe przemieszczenie punktów
Agnius Vasiliauskas
0

Nie jestem pewien, czy poprawnie zrozumiałem zasadę brzytwy Ockhama, czy nie.

Najpierw zajmijmy się brzytwą Ockhama:

Brzytwa Ockhama [..] stwierdza, że ​​„prostsze rozwiązania są bardziej prawdopodobne niż złożone”. - Wiki

Następnie odpowiedzmy na twoją odpowiedź:

Ponieważ jak w przypadku Razora Razama, wybierz prostszy klasyfikator, który wykonuje przyzwoitą pracę, a nie skomplikowaną.

Jest to poprawne, ponieważ w uczeniu maszynowym nadmierne dopasowanie jest problemem. Jeśli wybierzesz bardziej złożony model, istnieje większe prawdopodobieństwo, że sklasyfikujesz dane testowe, a nie faktyczne zachowanie problemu. Oznacza to, że kiedy używasz złożonego klasyfikatora do prognozowania nowych danych, prawdopodobieństwo, że będzie gorsze niż prosty klasyfikator.

Mały pomocnik
źródło