Użyj współczynnika korelacji Pearsona jako celu optymalizacji w uczeniu maszynowym

12

W uczeniu maszynowym (w przypadku problemów z regresją) często widzę błąd średniej kwadratowej (MSE) lub średni błąd bezwzględny (MAE) jako funkcję błędu w celu zminimalizowania (plus termin regularyzacji). Zastanawiam się, czy istnieją sytuacje, w których zastosowanie współczynnika korelacji byłoby bardziej odpowiednie? jeżeli taka sytuacja istnieje, to:

  1. W jakich sytuacjach współczynnik korelacji jest lepszą miarą w porównaniu z MSE / MAE?
  2. Czy w takich sytuacjach MSE / MAE jest nadal dobrą funkcją kosztu zastępczego?
  3. Czy bezpośrednie maksymalizowanie współczynnika korelacji jest możliwe? Czy jest to stabilna funkcja celu do użycia?

Nie mogłem znaleźć przypadków, w których współczynnik korelacji jest wykorzystywany bezpośrednio jako funkcja celu w optymalizacji. Byłbym wdzięczny, gdyby ludzie mogli wskazać mi informacje w tej dziedzinie.

Aha
źródło

Odpowiedzi:

7

Maksymalizacja korelacji jest użyteczna, gdy sygnał wyjściowy jest bardzo głośny. Innymi słowy, związek między wejściami i wyjściami jest bardzo słaby. W takim przypadku minimalizacja MSE spowoduje, że wynik będzie bliski zeru, tak że błąd predykcji będzie taki sam, jak wariancja wyniku treningu.

Bezpośrednie użycie korelacji jako funkcji celu jest możliwe w przypadku podejścia z gradientem (po prostu zmień ją na minimalizującą korelację ujemną). Nie wiem jednak, jak to zoptymalizować za pomocą podejścia SGD, ponieważ funkcja kosztu i gradient obejmuje wyniki wszystkich próbek szkoleniowych.

Innym sposobem na maksymalizację korelacji jest zminimalizowanie MSE z ograniczeniem wariancji wyjściowej do tej samej wartości, co treningowa wariancja wyjściowa. Jednak ograniczenie dotyczy również wszystkich danych wyjściowych, dlatego nie ma (moim zdaniem) sposobu na skorzystanie z optymalizatora SGD.

EDYCJA: W przypadku, gdy górna warstwa sieci neuronowej jest liniową warstwą wyjściową, możemy zminimalizować MSE, a następnie dostosować wagi i odchylenie w warstwie liniowej, aby zmaksymalizować korelację. Dostosowanie można wykonać podobnie do CCA ( https://en.wikipedia.org/wiki/Canonical_analysis ).

Bo Tian
źródło
1

W naszych badaniach wykorzystujemy korelację Pearsona i działa ona dobrze. W naszym przypadku jest dość stabilny. Ponieważ jest to niezmienna miara translacji i skali, jest przydatna tylko wtedy, gdy chcesz przewidzieć kształt, a nie dokładne wartości. Dlatego przydaje się, jeśli nie wiesz, czy twój cel znajduje się w przestrzeni rozwiązania twojego modelu, a interesuje Cię tylko kształt. Wręcz przeciwnie, MSE zmniejsza uśrednioną odległość między prognozą a celami, więc stara się jak najlepiej dopasować dane. Prawdopodobnie jest to powód, dla którego MSE jest szerzej stosowany, ponieważ zazwyczaj jesteś zainteresowany przewidywaniem dokładnych wartości. Jeśli zminimalizujesz MSE, korelacja wzrośnie.

HCRuiz
źródło