Obraz znajduje się na stronie 204, rozdział 4 „Rozpoznawanie wzorów i uczenie maszynowe” autorstwa Bishopa, gdzie nie rozumiem, dlaczego rozwiązanie najmniejszych kwadratów daje tutaj słabe wyniki:
Poprzedni akapit dotyczył faktu, że rozwiązania najmniejszych kwadratów nie są odporne na wartości odstające, jak widać na poniższym obrazie, ale nie rozumiem, co się dzieje na drugim obrazie i dlaczego LS daje tam również słabe wyniki.
classification
least-squares
Gigili
źródło
źródło
Odpowiedzi:
Szczególne zjawisko, które widzisz z rozwiązaniem najmniejszych kwadratów w Biskupi Rysunek 4.5, jest zjawiskiem, które występuje tylko wtedy, gdy liczba klas wynosi .≥ 3
W ESL , rysunek 4.2 na stronie 105, zjawisko to nazywa się maskowaniem . Zobacz także ESL rysunek 4.3. Rozwiązanie najmniejszych kwadratów daje predyktor dla klasy middel, który jest w większości zdominowany przez predyktory dla dwóch pozostałych klas. LDA lub regresja logistyczna nie cierpią z powodu tego problemu. Można powiedzieć, że to maskowanie powoduje sztywna struktura liniowego modelu prawdopodobieństw klasowych (co zasadniczo uzyskuje się z dopasowania najmniejszych kwadratów).
Przy tylko dwóch klasach zjawisko to nie występuje patrz także Ćwiczenie 4.2 w ESL, strona 135, aby uzyskać szczegółowe informacje na temat związku między rozwiązaniem LDA a rozwiązaniem najmniejszych kwadratów w przypadku dwóch klas.-
Edycja: Maskowanie jest być może najłatwiej wizualizować dla problemu dwuwymiarowego, ale jest to również problem w przypadku jednowymiarowym, a tutaj matematyka jest szczególnie łatwa do zrozumienia. Załóżmy, że jednowymiarowe zmienne wejściowe są uporządkowane jako
źródło
Na podstawie linku podanego poniżej powody, dla których dyskryminator LS nie działa dobrze na lewym górnym wykresie, są następujące:
-Brak odporności na wartości odstające.
- Niektóre zestawy danych nieodpowiednie do klasyfikacji metodą najmniejszych kwadratów.
- Granica decyzji odpowiada rozwiązaniu ML w rozkładzie warunkowym Gaussa. Ale docelowe wartości binarne mają rozkład daleko od Gaussa.
Spójrz na stronę 13 w Wady najmniejszych kwadratów.
źródło
Wierzę, że problem na twoim pierwszym wykresie nazywa się „maskowaniem” i jest wspomniany w „Elementach uczenia statystycznego: eksploracja danych, wnioskowanie i przewidywanie” (Hastie, Tibshirani, Friedman. Springer 2001), strony 83-84.
Intuicyjnie (co najlepsze, co mogę zrobić) Wierzę, że dzieje się tak, ponieważ przewidywania regresji OLS nie są ograniczone do [0,1], więc możesz skończyć z prognozą -0,33, gdy naprawdę chcesz więcej jak 0 .. 1, co można finezować w przypadku dwóch klas, ale im więcej klas, tym większe prawdopodobieństwo, że to niedopasowanie spowoduje problem. Myślę.
źródło
Najmniejszy kwadrat jest wrażliwy na skalę (ponieważ nowe dane mają różną skalę, wypaczy granicę decyzyjną), zwykle trzeba albo zastosować wagi (oznacza, że dane, które należy wprowadzić do algorytmu optymalizacji mają tę samą skalę) lub wykonać odpowiednią transformację (oznacza centrum, log (1 + dane) ... itd.) na danych w takich przypadkach. Wydaje się, że Least Square będzie działał idealnie, jeśli poprosisz go o wykonanie operacji 3 klasyfikacji, w którym to przypadku i scalenie dwóch klas wyjściowych.
źródło