Zadałem to pytanie na stronie stosu wymiany matematyki i polecono mi tutaj.
Pracuję nad projektem hobby i potrzebuję pomocy w rozwiązaniu następującego problemu.
Trochę kontekstu
Załóżmy, że istnieje kolekcja przedmiotów z opisem funkcji i ceną. Wyobraź sobie listę samochodów i cen. Wszystkie samochody mają listę funkcji, np. Wielkość silnika, kolor, moc konia, model, rok itp. Dla każdej marki coś takiego:
Ford:
V8, green, manual, 200hp, 2007, $200
V6, red, automatic, 140hp, 2010, $300
V6, blue, manual, 140hp, 2005, $100
...
Idąc dalej, lista samochodów z cenami jest publikowana z pewnym przedziałem czasowym, co oznacza, że mamy dostęp do historycznych danych cenowych. Nie zawsze może obejmować dokładnie te same samochody.
Problem
Chciałbym zrozumieć, jak modelować ceny każdego samochodu w oparciu o te podstawowe informacje, a przede wszystkim samochody, których nie ma na początkowej liście.
Ford, v6, red, automatic, 130hp, 2009
W powyższym samochodzie jest prawie taki sam jak jeden na liście, tylko nieco różni się mocą konia i rokiem. Aby to wycenić, czego potrzeba?
To, czego szukam, jest praktyczne i proste, ale chciałbym również usłyszeć o bardziej złożonych podejściach do modelowania czegoś takiego.
Co próbowałem
Oto, z czym do tej pory eksperymentowałem:
1) przy użyciu danych historycznych do wyszukiwania samochodu X. Jeśli nie znaleziono, brak ceny. Jest to oczywiście bardzo ograniczone i można tego używać tylko w połączeniu z pewnym opóźnieniem, aby z czasem zmieniać ceny znanych samochodów.
2) za pomocą schematu ważenia funkcji samochodu wraz z wycenionym samochodem próbnym. Zasadniczo istnieje cena podstawowa, a funkcje po prostu ją zmieniają z pewnym czynnikiem. Na tej podstawie obliczana jest cena każdego samochodu.
Pierwsza okazała się niewystarczająca, a druga nie zawsze była poprawna i mogłem nie mieć najlepszego podejścia do używania odważników. Wydaje się to również trochę obciążać utrzymanie wag, dlatego pomyślałem, że może jest jakiś sposób na wykorzystanie danych historycznych jako statystyk w celu uzyskania wag lub uzyskania czegoś innego. Po prostu nie wiem od czego zacząć.
Inne ważne aspekty
- zintegrować z jakimś projektem oprogramowania, który mam. Albo przez użycie istniejących bibliotek lub samodzielnego pisania algorytmu.
- szybkie przeliczanie, gdy pojawiają się nowe dane historyczne.
Wszelkie sugestie, w jaki sposób można rozwiązać taki problem? Wszystkie pomysły są mile widziane.
Z góry dziękuję i czekam na Wasze sugestie!
źródło
Zgadzam się z @whuber, że regresja liniowa jest dobrym rozwiązaniem, ale należy zachować ostrożność przy interpretacji wyników. Problem polega na tym, że w ekonomii cena jest zawsze związana z popytem. Jeśli popyt wzrośnie, ceny wzrosną, jeśli popyt spadnie, ceny spadną. Tak więc cena jest określana przez popyt, aw zamian popyt jest określany przez cenę. Jeśli więc modelujemy cenę jako regresję na podstawie niektórych atrybutów bez popytu, istnieje realne niebezpieczeństwo, że szacunki regresji będą błędne z powodu błędu zmienności pominiętej .
źródło
Po jakiejś dyskusji, oto mój pełny pogląd na te rzeczy
Problem
Cel: lepsze zrozumienie sposobu wyceny samochodów
Kontekst: w procesie decyzyjnym ludzie rozwiązują kilka pytań: czy potrzebuję samochodu, jeśli tak, jakie atrybuty wolę najbardziej (w tym cenę, ponieważ będąc racjonalnym, chciałbym mieć samochód o najlepszym stosunku jakości do ceny) , porównaj liczbę atrybutów między różnymi samochodami i wspólnie oceniaj je .
Z pozycji sprzedającego chciałbym ustalić cenę tak wysoką, jak to możliwe, i jak najszybciej sprzedać samochód. Jeśli więc ustawię zbyt wysoką cenę i czekam na miesiące, można uznać, że nie jest ona wymagana na rynku i oznaczona jako 0 w porównaniu do bardzo pożądanych zestawów atrybutów.
Uwagi: prawdziwe oferty, które wiążą atrybuty konkretnego samochodu z ceną ustaloną w ramach procesu przetargowego (w odniesieniu do poprzedniej uwagi ważne jest, aby wiedzieć, ile czasu zajmuje ustalenie oferty).
Plusy: obserwujesz rzeczy, które zostały faktycznie zakupione na rynku, więc nie zgadujesz, czy istnieje osoba o wystarczająco wysokiej cenie rezerwacji, która chce kupić konkretny samochód
Cons:
Metody rozwiązania
Pierwszy, jak sugeruje whuber, to klasyczny model regresji metodą najmniejszych kwadratów
Plusy:
Cons:
W przypadku regresji klasycznej, ponieważ nie jesteś ograniczony stopniami swobody, spróbuj również różnych terminów interakcji.
Dlatego bardziej skomplikowanym rozwiązaniem byłby model Tobit lub Heckman , możesz skonsultować się z AC Cameron i PK Trivedi Microeconometrics: metody i aplikacje, aby uzyskać więcej informacji na temat podstawowych metod.
Plusy:
Cons:
I wreszcie, jeśli po prostu interesuje Cię, w jaki sposób cena wpływa na prawdopodobieństwo zakupu, możesz pracować z pewnego rodzaju modelami logit .
Zgodziliśmy się, że analiza łączona nie jest tutaj odpowiednia, ponieważ masz inny kontekst i obserwacje.
Powodzenia.
źródło
Wygląda mi to również na problem regresji liniowej, ale co z K najbliższymi sąsiadami KNN . Możesz wymyślić wzór odległości między każdym samochodem i obliczyć cenę jako średnią między najbliższym K (powiedzmy 3). Formuła odległości może być oparta na euklidesie, jak różnica w cylindrach plus różnica w drzwiach, a także różnica w mocy i tak dalej.
Jeśli wybierzesz regresję liniową, zasugeruję kilka rzeczy:
Innym pomysłem jest stworzenie hybrydy między modelami. Użyj regresji i KNN zarówno jako punktów danych i stwórz ostateczną cenę jako średnią ważoną lub coś takiego.
źródło
Oprócz tego, co zostało powiedziane, i nie bardzo różni się od niektórych już przedstawionych sugestii, możesz rzucić okiem na obszerną literaturę na temat hedonicznych modeli wyceny . Sprowadza się do modelu regresji, który próbuje wyjaśnić cenę dobra złożonego jako funkcję jego atrybutów.
Pozwoliłoby to wycenić samochód, znając jego atrybuty (moc konia, rozmiar, marka itp.), Nawet jeśli w próbie nie ma dokładnie podobnej kombinacji atrybutów. Jest to bardzo popularne podejście do wyceny zasadniczo niereplikowalnych aktywów - takich jak nieruchomości w stanie rzeczywistym. Jeśli szukasz Google dla „modeli hedonicznych”, znajdziesz wiele referencji i przykładów.
źródło