Analizowałem zestaw danych ~ 400 000 rekordów i 9 zmiennych Zmienna zależna jest binarna. Dopasowałem regresję logistyczną, drzewo regresji, losowy las i drzewo wzmocnione gradientem. Wszystkie z nich dają wirtualną identyczną wartość dopasowania numerów, gdy sprawdzam je na innym zbiorze danych.
Dlaczego tak jest? Zgaduję, że dzieje się tak, ponieważ moje obserwacje w stosunku do zmiennych są tak wysokie. Jeśli jest to poprawne, przy jakiej obserwacji do zmiennej proporcji różne modele zaczną dawać różne wyniki?
źródło
warto też przyjrzeć się błędom szkoleniowym.
w zasadzie nie zgadzam się z twoją analizą. jeśli regresja logistyczna itp. dają te same wyniki, sugerowałoby to, że „najlepszy model” jest bardzo prosty (że wszystkie modele mogą pasować równie dobrze - np. zasadniczo liniowy).
Zatem pytanie może brzmieć: dlaczego najlepszy model jest prostym modelem? Może to sugerować, że twoje zmienne nie są bardzo przewidywalne. Oczywiście trudno analizować bez znajomości danych.
źródło
Jak sugerował @ seanv507, podobna wydajność może po prostu wynikać z tego, że dane najlepiej oddzielić modelem liniowym. Ale ogólnie stwierdzenie, że dzieje się tak, ponieważ „obserwacje do zmiennej stosunku są tak wysokie” jest nieprawidłowe. Nawet gdy stosunek wielkości próby do liczby zmiennych osiąga nieskończoność, nie należy oczekiwać, że różne modele będą działać niemal identycznie, chyba że wszystkie zapewniają takie same predykcyjne przewidywanie.
źródło
Myślę, że to wyjaśnienie ma sens.
Prawdopodobnie będzie to zależeć w dużym stopniu od konkretnych danych (na przykład, nawet od tego, czy dziewięć zmiennych jest ciągłych, czynników, zwykłych czy binarnych), a także od wszelkich decyzji dotyczących strojenia podjętych podczas dopasowywania modelu.
Możesz jednak bawić się współczynnikiem obserwacji do zmiennej - nie zwiększając liczbę zmiennych, ale zmniejszając liczbę obserwacji. Narysuj losowo 100 obserwacji, dopasuj modele i sprawdź, czy różne modele dają różne wyniki. (Chyba tak.) Zrób to wiele razy z różnymi próbkami pobranymi z twojej całkowitej liczby obserwacji. Następnie spójrz na podpróbki 1000 obserwacji ... 10 000 obserwacji ... i tak dalej.
źródło