Autokodery to sieci neuronowe, które uczą się skompresowanej reprezentacji danych wejściowych w celu późniejszej ich rekonstrukcji, dzięki czemu można je wykorzystać do redukcji wymiarów. Składają się z enkodera i dekodera (które mogą być osobnymi sieciami neuronowymi). Redukcja wymiarów może być użyteczna w celu radzenia sobie z problemami związanymi z przekleństwem wymiarowości lub osłabiania ich, gdy dane stają się rzadkie i trudniej jest uzyskać „istotność statystyczną”. Tak więc autoencodery (i algorytmy takie jak PCA) mogą być użyte do radzenia sobie z przekleństwem wymiarowości.
Dlaczego zależy nam na zmniejszeniu wymiarów, szczególnie za pomocą autokoderów? Dlaczego nie możemy po prostu użyć PCA, jeśli celem jest redukcja wymiarowości?
Dlaczego musimy zdekompresować utajoną reprezentację danych wejściowych, jeśli chcemy po prostu zmniejszyć wymiarowość lub dlaczego potrzebujemy części dekodera w autoenkoderze? Jakie są przypadki użycia? Ogólnie rzecz biorąc, dlaczego musimy skompresować dane wejściowe, aby później je zdekompresować? Czy nie byłoby lepiej po prostu użyć oryginalnego wejścia (na początek)?
Odpowiedzi:
Ważne jest, aby zastanowić się, jakie wzorce w danych są reprezentowane.
Załóżmy, że masz zestaw danych obrazów w skali szarości, dzięki czemu każdy obraz ma jednolitą intensywność. Jako ludzki mózg zdajesz sobie sprawę, że każdy element w tym zestawie danych można opisać w kategoriach pojedynczego parametru numerycznego, czyli wartości intensywności. Jest to coś, na co PCA dobrze by działało, ponieważ każdy z wymiarów (możemy myśleć o każdym pikselu jako innym wymiarze) jest idealnie skorelowany liniowo.
Załóżmy, że zamiast tego masz zestaw danych czarno-białych obrazów bitmapowych o wymiarach 128 x 128 pikseli z wyśrodkowanymi okręgami. Jako ludzki mózg szybko zdasz sobie sprawę, że każdy element w tym zestawie danych można w pełni opisać jednym parametrem numerycznym, którym jest promień okręgu. Jest to bardzo imponujący poziom redukcji w porównaniu z 16384 wymiarami binarnymi, a być może, co ważniejsze, jest semantycznie znaczącą właściwością danych. Jednak PCA prawdopodobnie nie będzie w stanie znaleźć tego wzorca.
Twoje pytanie brzmiało: „Dlaczego nie możemy po prostu użyć PCA, jeśli celem jest zmniejszenie wymiarów?” Prosta odpowiedź jest taka, że PCA jest najprostszym narzędziem do zmniejszania wymiarów, ale może umknąć wielu relacjom, które mogłyby znaleźć bardziej zaawansowane techniki, takie jak autoencodery.
źródło
Przykładem zastosowania autoencoderów (w szczególności dekodera lub modelu generatywnego autoencodera) jest odszumienie wejścia. Ten typ autoencoderów, zwanych auto-dekoderami odszumiającymi , przyjmuje częściowo uszkodzony sygnał wejściowy i próbuje odtworzyć odpowiadające mu nieskorupione wejście. Istnieje kilka zastosowań tego modelu. Na przykład, jeśli masz uszkodzony obraz, możesz potencjalnie odzyskać nieuszkodzony obraz za pomocą autokodera odmrażającego.
Autoencodery i PCA są powiązane:
Aby uzyskać więcej informacji, zapoznaj się z artykułem Od głównych podprzestrzeni do głównych komponentów z auto-koderami liniowymi (2018) autorstwa Elada Plauta. Zobacz także tę odpowiedź , która wyjaśnia również związek między PCA i autoencoderami.
źródło
PCA to metoda liniowa, która tworzy transformację zdolną do zmiany rzutów wektorów (zmiana osi)
Ponieważ PCA szuka kierunku maksymalnej wariancji, zwykle ma wysoką dyskryminację, ALE nie gwarantuje to, że kierunek największej wariancji jest kierunkiem największej dyskryminacji.
LDA jest metodą liniową, która tworzy transformację, która jest w stanie znaleźć kierunek, który jest najbardziej istotny dla podjęcia decyzji, czy wektor należy do klasy A czy B.
PCA i LDA mają nieliniowe wersje jądra, które mogą pokonać ich ograniczenia liniowe.
Autoencodery mogą przeprowadzać redukcję wymiarów z innymi rodzajami strat, mogą być nieliniowe i mogą działać lepiej niż PCA i LDA w wielu przypadkach.
Prawdopodobnie nie ma najlepszego algorytmu uczenia maszynowego, który mógłby cokolwiek zrobić, czasami głębokie uczenie się i sieci neuronowe są przesadne w przypadku prostych problemów, a PCA i LDA można wypróbować przed innymi, bardziej złożonymi redukcjami wymiarów.
źródło
źródło