Dlaczego rozwiązanie najmniejszych kwadratów daje w tym przypadku słabe wyniki?

21

Obraz znajduje się na stronie 204, rozdział 4 „Rozpoznawanie wzorów i uczenie maszynowe” autorstwa Bishopa, gdzie nie rozumiem, dlaczego rozwiązanie najmniejszych kwadratów daje tutaj słabe wyniki:

wprowadź opis zdjęcia tutaj

Poprzedni akapit dotyczył faktu, że rozwiązania najmniejszych kwadratów nie są odporne na wartości odstające, jak widać na poniższym obrazie, ale nie rozumiem, co się dzieje na drugim obrazie i dlaczego LS daje tam również słabe wyniki.

wprowadź opis zdjęcia tutaj

Gigili
źródło
Wygląda na to, że jest to część rozdziału o dyskryminacji między zbiorami. Na pierwszej parze wykresów, ta po lewej wyraźnie nie rozróżnia dobrze trzech zestawów punktów. Czy to jest odpowiedź na Twoje pytanie? Jeśli nie, czy możesz to wyjaśnić?
Peter Flom - Przywróć Monikę
@PeterFlom: Rozwiązanie LS daje słabe wyniki dla pierwszego, chcę poznać przyczynę. I tak, to ostatni akapit rozdziału o klasyfikacji LS, w którym cały rozdział dotyczy liniowych funkcji dyskryminacyjnych.
Gigili,

Odpowiedzi:

6

Szczególne zjawisko, które widzisz z rozwiązaniem najmniejszych kwadratów w Biskupi Rysunek 4.5, jest zjawiskiem, które występuje tylko wtedy, gdy liczba klas wynosi .3)

W ESL , rysunek 4.2 na stronie 105, zjawisko to nazywa się maskowaniem . Zobacz także ESL rysunek 4.3. Rozwiązanie najmniejszych kwadratów daje predyktor dla klasy middel, który jest w większości zdominowany przez predyktory dla dwóch pozostałych klas. LDA lub regresja logistyczna nie cierpią z powodu tego problemu. Można powiedzieć, że to maskowanie powoduje sztywna struktura liniowego modelu prawdopodobieństw klasowych (co zasadniczo uzyskuje się z dopasowania najmniejszych kwadratów).

Przy tylko dwóch klasach zjawisko to nie występuje patrz także Ćwiczenie 4.2 w ESL, strona 135, aby uzyskać szczegółowe informacje na temat związku między rozwiązaniem LDA a rozwiązaniem najmniejszych kwadratów w przypadku dwóch klas.-

Edycja: Maskowanie jest być może najłatwiej wizualizować dla problemu dwuwymiarowego, ale jest to również problem w przypadku jednowymiarowym, a tutaj matematyka jest szczególnie łatwa do zrozumienia. Załóżmy, że jednowymiarowe zmienne wejściowe są uporządkowane jako

x1<<xk<y1<ym<z1<<zn

xyz

110000T.T.001100000011xT.x1xky1ymz1zn

T.xxzy-klasa, regresja liniowa będzie musiała zrównoważyć zera dla dwóch klas zewnętrznych z zerami w klasie średniej, co spowoduje raczej płaską linię regresji i szczególnie słabe dopasowanie prawdopodobieństw klas warunkowych dla tej klasy. Jak się okazuje, maksimum linii regresji dla dwóch klas zewnętrznych dominuje linię regresji dla klasy średniej dla większości wartości zmiennej wejściowej, a klasa średnia jest maskowana przez klasy zewnętrzne.

wprowadź opis zdjęcia tutaj

k=m=n(x¯,1/3))

x¯=13)k(x1++xk+y1++ym+z1++zn).
NRH
źródło
2

Na podstawie linku podanego poniżej powody, dla których dyskryminator LS nie działa dobrze na lewym górnym wykresie, są następujące:
-Brak odporności na wartości odstające.
- Niektóre zestawy danych nieodpowiednie do klasyfikacji metodą najmniejszych kwadratów.
- Granica decyzji odpowiada rozwiązaniu ML w rozkładzie warunkowym Gaussa. Ale docelowe wartości binarne mają rozkład daleko od Gaussa.

Spójrz na stronę 13 w Wady najmniejszych kwadratów.

Stat
źródło
1

Wierzę, że problem na twoim pierwszym wykresie nazywa się „maskowaniem” i jest wspomniany w „Elementach uczenia statystycznego: eksploracja danych, wnioskowanie i przewidywanie” (Hastie, Tibshirani, Friedman. Springer 2001), strony 83-84.

Intuicyjnie (co najlepsze, co mogę zrobić) Wierzę, że dzieje się tak, ponieważ przewidywania regresji OLS nie są ograniczone do [0,1], więc możesz skończyć z prognozą -0,33, gdy naprawdę chcesz więcej jak 0 .. 1, co można finezować w przypadku dwóch klas, ale im więcej klas, tym większe prawdopodobieństwo, że to niedopasowanie spowoduje problem. Myślę.

Wayne
źródło
1

Najmniejszy kwadrat jest wrażliwy na skalę (ponieważ nowe dane mają różną skalę, wypaczy granicę decyzyjną), zwykle trzeba albo zastosować wagi (oznacza, że ​​dane, które należy wprowadzić do algorytmu optymalizacji mają tę samą skalę) lub wykonać odpowiednią transformację (oznacza centrum, log (1 + dane) ... itd.) na danych w takich przypadkach. Wydaje się, że Least Square będzie działał idealnie, jeśli poprosisz go o wykonanie operacji 3 klasyfikacji, w którym to przypadku i scalenie dwóch klas wyjściowych.

dfhgfh
źródło