Znam formułę średniej kwadratowej błędu i jak ją obliczyć. Kiedy mówimy o regresji, możemy obliczyć średni błąd kwadratu. Czy jednak możemy porozmawiać o MSE dla problemu klasyfikacji i jak go obliczyć?
źródło
Znam formułę średniej kwadratowej błędu i jak ją obliczyć. Kiedy mówimy o regresji, możemy obliczyć średni błąd kwadratu. Czy jednak możemy porozmawiać o MSE dla problemu klasyfikacji i jak go obliczyć?
Wielu klasyfikatorów może przewidzieć ciągłe wyniki. Często ciągłe wyniki są wynikami pośrednimi, które są konwertowane tylko na etykiety klas (zwykle według progów) jako ostatni krok klasyfikacji. W innych przypadkach można np. Obliczyć prawdopodobieństwa wsteczne członkostwa w klasie (np. Analiza dyskryminacyjna, regresja logistyczna). Możesz obliczyć MSE, stosując te ciągłe wyniki, a nie etykiety klas. Zaletą tego jest to, że unikasz utraty informacji z powodu dychotomizacji.
Gdy prawdopodobieństwo ciągłe jest wynikiem, miernik MSE nazywa się wynikiem Briera.
Istnieją jednak również problemy z klasyfikacją, które są raczej problemami regresji w przebraniu. W mojej dziedzinie może to być np. Klasyfikowanie przypadków według tego, czy stężenie niektórych substancji przekracza dozwolony limit, czy też nie (co jest binarnym / dyskryminującym problemem dwóch klas). MSE jest tutaj naturalnym wyborem ze względu na regresyjny charakter zadania.
W tym artykule wyjaśniamy to jako część bardziej ogólnych ram:
C. Beleites, R. Salzer i V. Sergo:
Walidacja miękkich modeli klasyfikacji przy użyciu członkostwa w klasie częściowej: rozszerzona koncepcja wrażliwości i spółka zastosowana do klasyfikacji tkanek gwiaździaka
Chemom Intel. Laboratorium. Syst., 122 (2013), 12–22.
Jak to obliczyć: jeśli pracujesz w R, jedna implementacja znajduje się w pakiecie „softclassval”, http: /softclassval.r-forge.r-project.org.
Nie do końca rozumiem, jak ... udana klasyfikacja jest zmienną binarną (poprawną lub nie), więc trudno jest zobaczyć, co byś wyliczył.
Zasadniczo klasyfikacje są mierzone na podstawie wskaźników, takich jak poprawność procentowa, gdy klasyfikacja, która została oszacowana na podstawie zestawu szkoleniowego, jest stosowana do zestawu testowego, który został odłożony wcześniej.
Średni błąd kwadratowy można oczywiście (i jest) obliczać dla prognoz lub przewidywanych wartości zmiennych ciągłych, ale nie sądzę, że dla klasyfikacji.
źródło
W przypadku oszacowań prawdopodobieństwa chciałbyś obliczyć nie MSE, ale prawdopodobieństwo:π^
Prawdopodobieństwo to dotyczy odpowiedzi binarnej, która, jak się zakłada, ma rozkład Bernoulliego.
Jeśli weźmiesz log a następnie zaprzeczysz, otrzymasz logistyczną utratę, która jest swego rodzaju analogiem MSE, gdy masz binarną odpowiedź. W szczególności MSE jest prawdopodobieństwem logu ujemnego dla ciągłej odpowiedzi, przy założeniu, że ma rozkład normalny.L
źródło
Technicznie możesz, ale funkcja MSE nie jest wypukła do klasyfikacji binarnej. Tak więc, jeśli model klasyfikacji binarnej zostanie przeszkolony z funkcją Koszt MSE, nie ma gwarancji zminimalizowania funkcji Koszt . Również użycie MSE jako funkcji kosztu zakłada rozkład Gaussa, co nie ma miejsca w przypadku klasyfikacji binarnej.
źródło