Biorąc pod uwagę macierz , Faktoryzacja macierzy nieujemnej (NMF) znajduje dwie nieujemne macierze i ( tzn. ze wszystkimi elementami ) do reprezentowania rozłożonej macierzy jako:H k × n ≥0
na przykład wymagając, aby nieujemne i zminimalizowały błąd rekonstrukcjiH ‖ V - W H ‖ 2 .
Czy istnieją powszechne praktyki szacowania liczby w NMF? Jak można na przykład zastosować w tym celu weryfikację krzyżową?
cross-validation
unsupervised-learning
latent-variable
matrix-decomposition
nnmf
Steve Sailer
źródło
źródło
Odpowiedzi:
Aby wybrać optymalną liczbę ukrytych czynników w nieujemnym rozkładzie macierzy, użyj weryfikacji krzyżowej.
Jak pisałeś, celem NMF jest znalezienie niskiego wymiaru i ze wszystkimi nieujemnymi elementami minimalizującymi błąd rekonstrukcji . Wyobraź sobie, że pomijamy jeden element , np. , i wykonujemy NMF uzyskanej macierzy z jedną brakującą komórką. Oznacza to znalezienie i minimalizujących błąd rekonstrukcji dla wszystkich brakujących komórek:W H ∥V−WH∥2 V Vab W H ∑ij≠ab(Vij−[WH]ij)2.
Po wykonaniu tej czynności możemy przewidzieć pominięty element , obliczając i obliczyć błąd prognozyMożna powtórzyć tę procedurę, pomijając wszystkie elementy jeden po drugim, i zsumować błędy prognozowania dla wszystkich i . Spowoduje to ogólną wartość PRESS (przewidywana rezydualna suma kwadratów) która będzie zależeć od . Mam nadzieję, że funkcja będzie miała minimum, które można wykorzystać jako „optymalne” .Vab [WH]ab eab=(Vab−[WH]ab)2. Vab a b E(k)=∑abeab k E(k) k
Zauważ, że może to być kosztowne obliczeniowo, ponieważ NMF musi być powtarzane dla każdej pominiętej wartości, a także może być trudne do zaprogramowania (w zależności od tego, jak łatwo wykonać NMF z brakującymi wartościami). W PCA można obejść ten problem, pomijając pełne rzędy (co znacznie przyspiesza obliczenia), zobacz moją odpowiedź w Jak przeprowadzić weryfikację krzyżową dla PCA w celu ustalenia liczby głównych składników? , ale nie jest to możliwe tutaj.V
Oczywiście obowiązują tutaj wszystkie zwykłe zasady walidacji krzyżowej, więc można pominąć wiele komórek na raz (zamiast tylko jednej) i / lub powtórzyć procedurę tylko dla niektórych losowych komórek zamiast zapętlać wszystkie komórki. Oba podejścia mogą pomóc przyspieszyć proces.
Edycja (marzec 2019 r.): Zobacz ten bardzo ładny ilustrowany opis autorstwa @AlexWilliams : http://alexhwilliams.info/itsneuronalblog/2018/02/26/crossval . Alex używa https://github.com/kimjingu/nonnegfac-python dla NMF z brakującymi wartościami.
źródło
Według mojej wiedzy istnieją dwa dobre kryteria: 1) współczynnik korelacji kopenetycznej i 2) porównanie resztkowej sumy kwadratów z danymi losowymi dla zestawu rang (być może jest na to nazwa, ale nie pamiętam)
Współczynnik korelacji kopenetycznej: Powtarzasz NMF kilka razy na rangę i obliczasz, jak podobne są wyniki. Innymi słowy, jak stabilne są zidentyfikowane klastry, biorąc pod uwagę, że początkowe ziarno jest losowe. Wybierz najwyższą wartość K, zanim spadnie współczynnik kopenetyczny.
RSS względem danych losowych W przypadku dowolnej metody redukcji wymiarów zawsze występuje utrata informacji w porównaniu do danych oryginalnych (oszacowanych przez RSS). Teraz wykonaj NMF w celu zwiększenia K i oblicz RSS z oryginalnym zestawem danych i losowym zestawem danych. Porównując RSS w funkcji K, RSS zmniejsza się wraz ze wzrostem K w oryginalnym zestawie danych, ale w mniejszym stopniu dotyczy to losowego zestawu danych. Porównując oba zbocza, w miejscu przecięcia powinna znajdować się litera K. Innymi słowy, ile informacji możesz sobie pozwolić na utratę (= najwyższe K), zanim znajdziesz się w hałasie.
Mam nadzieję, że byłem wystarczająco jasny.
Edycja: Znalazłem te artykuły.
1.Jean-P. Brunet, Pablo Tamayo, Todd R. Golub i Jill P. Mesirov. Wykrywanie metagenów i wzorców molekularnych za pomocą faktoryzacji macierzy. W Proceedings of the National Academy of Sciences of the USA, 101 (12): 4164-4169, 2004.
2.Attila Frigyesi i Mattias Hoglund. Nieujemna faktoryzacja macierzy do analizy złożonych danych dotyczących ekspresji genów: identyfikacja klinicznie istotnych podtypów nowotworów. Cancer Informatics, 6: 275–292, 2008.
źródło
W faktoryzacji NMF parametr (zauważyć R w większości literatura) jest stopień zbliżania V i jest wybrany tak, że K < min ( m , n ) . Wybór parametru określa reprezentację twoich danych V w całościowej bazie złożonej z kolumn W ; W I , i = 1 , 2 , ⋯ , k . W rezultacie szeregi macierzy W i H mają górną granicęk r V k<min(m,n) V W wi , i=1,2,⋯,k W H i produkt W H jest niski stopień zbliżanie V ; takżeco najwyżej k . Zatem wybór k < min ( m , n ) powinien stanowić zmniejszenie wymiarów, w którym V może być generowane / rozciągane z wyżej wymienionych wektorów bazowych.k WH V k k<min(m,n) V
Dalsze szczegóły można znaleźć w rozdziale 6 tej książki S. Theodoridis i K. Koutroumbas.
Po zminimalizowaniu wybranej funkcji kosztu w odniesieniu do i H , optymalny wybór k ( wybrany empirycznie przez pracę z różnymi podprzestrzeniami cech) powinien dać V ∗ , przybliżenie V , z cechami reprezentatywnymi dla początkowej macierzy danych V .W H k V∗ V V
Praca z różnych funkcji podrzędnych przestrzeni w tym sensie, że liczbę kolumn w W , jest liczba wektorów bazowych w NMF sub-przestrzeni. I empirycznie pracy z różnymi wartościami k jest równoznaczne z pracy z różnych miejsc o obniżonej wymiarowości fabularnych.k W k
źródło