Powiedzmy, że testuję, jak zmienna Y
zależy od zmiennej X
w różnych warunkach eksperymentalnych i otrzymuję następujący wykres:
Linie przerywane na powyższym wykresie reprezentują regresję liniową dla każdej serii danych (konfiguracja eksperymentalna), a liczby w legendzie oznaczają korelację Pearsona dla każdej serii danych.
Chciałbym obliczyć „średnią korelację” (lub „średnią korelację”) pomiędzy X
i Y
. Czy mogę po prostu uśrednić r
wartości? Co z „średnim kryterium determinacji”, ? Czy powinienem obliczyć średnią, a następnie obliczyć kwadrat tej wartości, czy też powinienem obliczyć średnią poszczególnych ?R 2r
źródło
W przypadku współczynników korelacji Pearsona ogólnie właściwe jest przekształcenie wartości r za pomocą transformacji Fis z . Następnie uśrednij wartości z i przekonwertuj średnią z powrotem na wartość r .
Wyobrażam sobie, że byłoby dobrze również dla współczynnika Spearmana.
Oto artykuł i wpis w Wikipedii .
źródło
Średnia korelacja może być znacząca. Weź również pod uwagę rozkład korelacji (na przykład wykreśl histogram).
Ale, jak rozumiem, dla każdej osoby masz pewien ranking przedmiotów oraz przewidywane rankingi tych przedmiotów dla tej osoby i patrzysz na korelację między rankingami danej osoby a przewidywanymi.n
W takim przypadku może się zdarzyć, że korelacja nie jest najlepszą miarą skuteczności algorytmu w prognozowaniu. Wyobraźmy sobie na przykład, że algorytm perfekcyjnie uzyskuje pierwsze 100 elementów, a kolejne 200 elementów jest całkowicie pomieszane, a wręcz przeciwnie. Możliwe, że zależy Ci tylko na jakości najlepszych rankingów. W tym przypadku, można spojrzeć na sumę bezwzględnych różnic między poszczególnymi w rankingu i przewidywany rankingu, ale tylko wśród czołowych jednostki przedmiotów.m
źródło
Co powiesz na użycie średniej kwadratowej przewidywanej wartości błędu (MSPE) do działania algorytmu? Jest to standardowe podejście do tego, co próbujesz zrobić, jeśli próbujesz porównać wydajność predykcyjną wśród zestawu algorytmów.
źródło