Przeczytałem inne tematy dotyczące wykresów częściowej zależności, a większość z nich dotyczy tego, w jaki sposób rysujesz je różnymi pakietami, a nie jak możesz je dokładnie interpretować, więc:
Czytałem i tworzyłem sporo wykresów częściowej zależności. Wiem, że mierzą marginalny wpływ zmiennej ons na funkcję ƒS (χS) ze średnim wpływem wszystkich innych zmiennych (χc) z mojego modelu. Wyższe wartości y oznaczają, że mają większy wpływ na dokładne przewidywanie mojej klasy. Jednak nie jestem zadowolony z tej jakościowej interpretacji.
Mój model (losowy las) przewiduje dwie dyskretne klasy. „Tak drzewa” i „Brak drzew”. TRI jest zmienną, która okazała się dobrą zmienną do tego celu.
Zacząłem myśleć, że wartość Y pokazuje prawdopodobieństwo prawidłowej klasyfikacji. Przykład: y (0,2) pokazuje, że wartości TRI> ~ 30 mają 20% szansy na prawidłowe zidentyfikowanie prawdziwie pozytywnej klasyfikacji.
Gdzie odwrotnie
y (-0,2) pokazuje, że wartości TRI <~ 15 mają 20% szansy na prawidłowe zidentyfikowanie klasyfikacji True Negative.
Ogólne interpretacje dokonane w literaturze brzmią następująco: „Wartości większe niż TRI 30 zaczynają mieć pozytywny wpływ na klasyfikację w twoim modelu” i to wszystko. Brzmi tak niejasno i bezcelowo, jak na fabułę, która potencjalnie może tyle mówić o twoich danych.
Ponadto wszystkie moje wykresy mają zakres od -1 do 1 w zakresie dla osi y. Widziałem inne wykresy, które mają od -10 do 10 itd. Czy to funkcja liczby klas, które próbujesz przewidzieć?
Zastanawiałem się, czy ktoś może porozmawiać z tym problemem. Może pokaż mi, jak powinienem interpretować te wątki lub literaturę, która może mi pomóc. Może czytam w to za daleko?
Przeczytałem bardzo dokładnie Elementy uczenia statystycznego: eksploracja danych, wnioskowanie i przewidywanie, i był to świetny punkt wyjścia, ale o to chodzi.
źródło
Odpowiedzi:
Każdy punkt na wykresie częściowej zależności jest średnim procentem głosów na korzyść klasy „Tak drzew” we wszystkich obserwacjach, przy ustalonym poziomie TRI.
To nie jest prawdopodobieństwo poprawnej klasyfikacji. Nie ma absolutnie nic wspólnego z dokładnością, prawdziwymi negatywami i prawdziwymi pozytywami.
Kiedy zobaczysz wyrażenie
to nadęty sposób mówienia
źródło
Funkcja częściowej zależności w zasadzie daje „średni” trend tej zmiennej (integrując wszystkie pozostałe w modelu). „Kształt” tego trendu jest „ważny”. Możesz interpretować względny zakres tych wykresów na podstawie różnych zmiennych predykcyjnych, ale nie zakres bezwzględny. Mam nadzieję, że to pomaga.
źródło
Spojrzeniem na wartości osi y jest to, że są one względem siebie nawzajem na innych wykresach. Gdy liczba ta jest wyższa niż na innych wykresach w wartościach bezwzględnych, oznacza to, że jest to ważniejsze, ponieważ wpływ tej zmiennej na wynik jest większy.
Jeśli interesuje Cię matematyka stojąca za wykresami częściowej zależności i jak ta liczba jest szacowana, możesz ją znaleźć tutaj: http://statweb.stanford.edu/~jhf/ftp/RuleFit.pdf sekcja 8.1
źródło