Pomiar korelacji wyszkolonych sieci neuronowych

9

Trenuję sztuczną sieć neuronową (propagacja wsteczna, sprzężenie zwrotne) z niestandardowymi danymi rozproszonymi. Oprócz błędu średniej kwadratowej błędu literatura często sugeruje współczynnik korelacji Pearsona do oceny jakości trenowanej sieci. Ale czy współczynnik korelacji Pearsona jest rozsądny, jeśli dane treningowe nie są normalnie dystrybuowane? Czy nie byłoby bardziej rozsądne stosowanie miary korelacji opartej na rangach, np. Spearman rho?

juliański
źródło
Czy potrafisz wyjaśnić, w jaki sposób ktoś by go użył, czy podać referencje?
bayerj

Odpowiedzi:

6

Współczynnik korelacji Pearsona mierzy asocjację liniową. Oparta na empirycznych drugich momentach centralnych, ma na nią wpływ ekstremalna wartość. W związku z tym:

  • Dowody nieliniowości na wykresie rozrzutu rzeczywistych vs przewidywanych wartości sugerowałyby zastosowanie alternatywy, takiej jak współczynnik korelacji rang (Spearmana);

    • Jeśli relacja wygląda średnio monotonicznie (jak w górnym rzędzie ilustracji), współczynnik korelacji rang będzie skuteczny;

    • W przeciwnym razie związek jest krzywoliniowy (jak w niektórych przykładach z dolnego rzędu ilustracji, takich jak skrajnie lewy lub środkowy kształt litery U) i prawdopodobnie jakakolwiek miara korelacji będzie nieodpowiednim opisem; użycie współczynnika korelacji rang nie naprawi tego.

  • Obecność danych odległych na wykresie rozrzutu wskazuje, że współczynnik korelacji Pearsona może zawyżać siłę zależności liniowej. To może być lub nie być poprawne; używaj go z należytą ostrożnością. Współczynnik korelacji rang może być lub nie być lepszy, w zależności od tego, jak wiarygodne są wartości peryferyjne.

Przykłady wykresów rozrzutu i ich korelacje Pearsona

(Zdjęcie skopiowane z artykułu z Wikipedii na temat współczynnika korelacji Pearson-moment produktu ).

Whuber
źródło
Czy możesz podać kilka źródeł swojego oświadczenia o stosowaniu korelacji rang do pomiaru wydajności regresji?
Simon Kuang,