Jestem trochę mylony z wykładem na temat regresji liniowej wygłoszonym przez Andrew Ng na Coursera na temat uczenia maszynowego. Tam podał funkcję kosztu, która minimalizuje sumę kwadratów jako:
Rozumiem gdzie pochodzi z. Myślę, że zrobił to tak, że gdy wykonał pochodną na kwadracie, 2 w kwadracie skasowałoby się z połową. Ale nie rozumiem, gdzie pochodzą.
Dlaczego musimy to zrobić ? W standardowej regresji liniowej nie mamy jej, po prostu minimalizujemy resztki. Dlaczego go tutaj potrzebujemy?
regression
machine-learning
loss-functions
SmallChess
źródło
źródło
Odpowiedzi:
Jak zdajesz sobie sprawę, z pewnością nie potrzebujemy współczynnika / m , aby uzyskać regresję liniową. Minimalizatory będą oczywiście dokładnie takie same, z nim lub bez niego. Jednym z typowych powodów normalizacji przez m jest to, że możemy postrzegać funkcję kosztu jako przybliżenie „błędu uogólnienia”, który jest oczekiwaną stratą kwadratową na losowo wybranym nowym przykładzie (nie w zestawie treningowym):1/m m
Załóżmy, że są próbkowane z niektórych rozkładów. Zatem dla dużych m oczekujemy, że 1(X,Y),(X(1),Y(1)),…,(X(m),Y(m)) m
Dokładniej, przez silne prawo wielkich liczb, mamy z prawdopodobieństwem 1.
Uwaga: Każde z powyższych stwierdzeń dotyczy dowolnego konkretnego , wybranego bez oglądania zestawu treningowego. Dla uczenia maszynowego, chcemy te oświadczenia utrzymywać przez jakiś θθ θ^ wybrany w oparciu o jego dobre wyniki na zbiorze treningowym. Twierdzenia te mogą nadal obowiązywać w tym przypadku, choć musimy poczynić pewne założenia dotyczące zestawu funkcji {hθ|θ∈Θ} , a będziemy potrzebować czegoś silniejszego niż Prawo Dużych Liczb.
źródło
Nie mają do. Funkcja straty ma to samo minimum, niezależnie od tego, czy uwzględnisz1m lub stłumić. Jeśli jednak go uwzględnisz, uzyskasz dobrą interpretację minimalizacji (połowy) średniego błędu na punkt danych. Innymi słowy, jesteś w błędzie, minimalizując tempo zamiast całkowitego błędu.
Rozważ porównanie wydajności dwóch zestawów danych o różnych rozmiarach. Surowa suma błędów w kwadracie nie jest bezpośrednio porównywalna, ponieważ większe zestawy danych zwykle zawierają więcej błędów całkowitych tylko ze względu na ich rozmiar. Z drugiej strony średni błąd na punkt danych wynosi .
Pewnie. Twój zestaw danych to zbiór punktów danych . Gdy masz model h , błąd najmniejszych kwadratów h w pojedynczym punkcie danych wynosi{xi,yi} h h
jest to oczywiście inne dla każdego punktu danych. Teraz, jeśli po prostu zsumujemy błędy (i pomnożymy przez połowę z powodu, który opisujesz) otrzymamy błąd całkowity
ale jeśli podzielimy przez liczbę sum, otrzymamy średni błąd na punkt danych
źródło