Trenuję sztuczną sieć neuronową (propagacja wsteczna, sprzężenie zwrotne) z niestandardowymi danymi rozproszonymi. Oprócz błędu średniej kwadratowej błędu literatura często sugeruje współczynnik korelacji Pearsona do oceny jakości trenowanej sieci. Ale czy współczynnik korelacji Pearsona jest rozsądny, jeśli dane treningowe nie są normalnie dystrybuowane? Czy nie byłoby bardziej rozsądne stosowanie miary korelacji opartej na rangach, np. Spearman rho?
correlation
neural-networks
spearman-rho
juliański
źródło
źródło
Odpowiedzi:
Współczynnik korelacji Pearsona mierzy asocjację liniową. Oparta na empirycznych drugich momentach centralnych, ma na nią wpływ ekstremalna wartość. W związku z tym:
Dowody nieliniowości na wykresie rozrzutu rzeczywistych vs przewidywanych wartości sugerowałyby zastosowanie alternatywy, takiej jak współczynnik korelacji rang (Spearmana);
Jeśli relacja wygląda średnio monotonicznie (jak w górnym rzędzie ilustracji), współczynnik korelacji rang będzie skuteczny;
W przeciwnym razie związek jest krzywoliniowy (jak w niektórych przykładach z dolnego rzędu ilustracji, takich jak skrajnie lewy lub środkowy kształt litery U) i prawdopodobnie jakakolwiek miara korelacji będzie nieodpowiednim opisem; użycie współczynnika korelacji rang nie naprawi tego.
Obecność danych odległych na wykresie rozrzutu wskazuje, że współczynnik korelacji Pearsona może zawyżać siłę zależności liniowej. To może być lub nie być poprawne; używaj go z należytą ostrożnością. Współczynnik korelacji rang może być lub nie być lepszy, w zależności od tego, jak wiarygodne są wartości peryferyjne.
(Zdjęcie skopiowane z artykułu z Wikipedii na temat współczynnika korelacji Pearson-moment produktu ).
źródło