Staram się znaleźć najlepszy model do przewidywania cen samochodów, korzystając z cen i funkcji dostępnych na stronach ogłoszeń samochodowych.
Do tego wykorzystałem kilka modeli z biblioteki scikit-learn oraz modele sieci neuronowej z pybrain i neurolabu. Podejście, które do tej pory stosowałem, polega na przepuszczeniu stałej ilości danych przez niektóre modele (algorytmy uczenia maszynowego) i porównaniu tam wartości , które zostały obliczone za pomocą modułu metryk scikit-learn.
- Czy to dobra metoda porównywania wydajności różnych modeli?
- Chociaż otrzymałem całkiem akceptowalne wyniki dla modeli takich jak Sieć elastyczna i Lasy losowe, otrzymałem bardzo słabe wartości dla modeli sieci neuronowych, więc czy jest odpowiednią metodą oceny sieci neuronowych (lub metod nieliniowych)?
Odpowiedzi:
Myślę, że kluczową częścią do rozważenia w odpowiedzi na twoje pytanie jest
ponieważ to stwierdzenie sugeruje coś o tym, dlaczego chcesz użyć modelu. Wybór modelu i ocena powinny opierać się na tym, co chcesz osiągnąć dzięki dopasowanym wartościom.
Po pierwsze, podsumujmy, co robiR2 : Oblicza miarę skalowaną na podstawie funkcji straty kwadratowej, o której jestem pewien, że już wiesz. Aby to zobaczyć, określić resztkową dla i-tej obserwacji y I i odpowiednia wartość wyposażona y ja . Używając wygodnej notacji S S R : = ∑ N i = 1 e 2 i , S S T : = ∑ei=yi−y^i yi y^i SSR:=∑Ni=1e2i ,R2jest po prostu określone jakoR2=1-SSR/SST.SST:=∑Ni=1(yi−y¯)2 R2 R2=1−SSR/SST
Po drugie, przyjrzyjmy się, co przy użyciu dla modelu wyboru / oceny środkówR2 . Załóżmy, że wybieramy z zestawu prognoz które zostały wygenerowane przy użyciu modelu M : M ∈ M , gdzie M jest kolekcją rozważanych modeli (w twoim przykładzie ta kolekcja zawierałaby sieci neuronowe, losowe lasy, siatki elastyczne, ...) Ponieważ S S T pozostanie stałą wśród wszystkich modeli, jeśli minimalizując R 2 można wybrać dokładnie model, który minimalizuje S S R . Innymi słowy, wybierzeszY¯M M:M∈M M SST R2 SSR który powoduje minimalną stratę błędu kwadratowego!M∈M
Po trzecie, rozważmy dlaczegoR2 lub równoważnie, może być interesujące dla modelu wyboru . Tradycyjnie stratę kwadratową ( normę L 2 ) stosuje się z trzech powodów: (1) Jest łatwiejsza do obliczenia niż najmniejsze odchylenia bezwzględne (LAD, norma L 1 ), ponieważ w obliczeniach nie pojawia się żadna wartość bezwzględna, (2) karze dopasowany wartości, które znacznie odbiegają od rzeczywistej wartości znacznie bardziej niż LAD (w sensie kwadratowym niż absolutnym), a tym samym upewniają się, że mamy mniej skrajne wartości odstające, (3) jest symetryczny : przeszacowanie lub niedoszacowanie ceny samochodu jest uważany za równie zły.SSR L2 L1
Po czwarte (i ostatnie), zobaczmy, czy tego właśnie potrzebujesz do swoich prognoz. Punktem, który może być tutaj najbardziej interesujący, jest (3) z ostatniego akapitu. Załóżmy, że chcesz zająć neutralne stanowisko i nie jesteś kupującym ani sprzedającym samochód. Następnie, może mieć sens: jesteś bezstronny i chcesz ukarać odchylenia do nad- lub zaniżonych dokładnie identycznie. To samo dotyczy sytuacji, gdy chcesz po prostu modelować relację między wielkościami bez chęci przewidywania nieobserwowanych wartości. Załóżmy teraz, że pracujesz dla konsumenta / nabywcy o napiętym budżecie: W tej sytuacji możesz chcieć ukarać przeszacowanie ceny w sensie kwadratowym, ale niedoszacowanie w sensie L p , gdzie 1 ⩽ pR2 Lp . Dla p = 1 karałbyś w sensie absolutnego odchylenia. Można to postrzegać jako odzwierciedlające cele i intencje kupującego, a odchylenie szacunków w dół może być dla niego interesujące. I odwrotnie, możesz odwrócić myślenie, jeśli modelujesz prognozy cenowe dla sprzedającego. Nie trzeba dodawać, każda norma L p może zostać wybrana w celu odzwierciedlenia preferencji modelarza / agent ci modelu. Możesz równieżcałkowiciekarać pozanormą L p , i stosować stałą, wykładniczą lub logarytmiczną utratę z jednej strony i inną stratę z drugiej.1⩽p<2 p=1 Lp Lp
Podsumowując, wyboru / oceny modelu nie można rozpatrywać niezależnie od celu modelu.
źródło