Zastanawiam się, czy jest jakaś heurystyka na temat liczby cech w porównaniu z liczbą obserwacji. Oczywiście, jeśli liczba cech jest równa liczbie obserwacji, model się dopasuje. Stosując rzadkie metody (LASSO, elastyczna siatka) możemy usunąć kilka funkcji w celu zmniejszenia modelu.
Moje pytanie brzmi (teoretycznie): czy przed użyciem wskaźników do oceny wyboru modelu istnieją jakieś obserwacje empiryczne, które wiążą optymalną liczbę cech z liczbą obserwacji?
Na przykład: w przypadku problemu z klasyfikacją binarną obejmującego 20 instancji w każdej klasie, czy istnieje górny limit liczby używanych funkcji?
źródło
z własnego doświadczenia: w jednym przypadku pracowałem z prawdziwą bazą danych, która jest bardzo mała (300 obrazów) z wieloma klasami, poważny problem braku równowagi danych i ostatecznie skorzystałem z 9 funkcji: SIFT, HOG, kontekstu kształtu, SSIM, GM oraz 4 funkcje oparte na DNN. W innym przypadku pracowałem z bardzo dużą bazą danych (> 1 M obrazów) i skończyłem na użyciu tylko funkcji HOG. Myślę, że nie ma bezpośredniego związku między liczbą instancji a liczbą funkcji wymaganych do osiągnięcia wysokiej dokładności. ALE: liczba klas, podobieństwo między klasami i zmienność w obrębie tej samej klasy (te trzy parametry) mogą wpływać na liczbę funkcji. w przypadku posiadania większej bazy danych z wieloma klasami i dużym podobieństwem między klasami oraz dużej zmienności w obrębie tej samej klasy potrzebujesz więcej funkcji, aby osiągnąć wysoką dokładność. ZAPAMIĘTAJ:
źródło
To zależy ... ale oczywiście ta odpowiedź nie doprowadzi cię nigdzie.
Jest pewną ogólną zasadą dotyczącą złożoności modelu: Uczenie się na podstawie danych - wymiar VC
„Bardzo z grubsza” potrzebujesz 10 punktów danych dla każdego parametru modelu. Liczba parametrów modelu może być podobna do liczby funkcji.
źródło
Trochę późno na imprezę, ale oto heurystyka.
Do szkolenia klasyfikatorów liniowych zaleca się 3–5 niezależnych przypadków na klasę i cechę. Ten limit zapewnia niezawodnie stabilne modele, nie gwarantuje dobrego modelu (nie jest to możliwe: możesz mieć nieinformacyjne dane, w których żaden model nie mógłby osiągnąć dobrej wydajności uogólnienia)
Jednak w przypadku próbek tak małych, jak scenariusz, weryfikacja (walidacja) wąskim gardłem jest a nie szkolenie, a weryfikacja zależy od bezwzględnej liczby przypadków testowych, a nie przypadków związanych ze złożonością modelu: z reguły potrzebujesz ≈ 100 testów przypadki w mianowniku w celu oszacowania proporcji z przedziałem ufności nieprzekraczającym 10% szerokości.
Niestety oznacza to również, że zasadniczo nie można uzyskać empirycznej krzywej uczenia się dla swojej aplikacji: nie można jej wystarczająco dokładnie zmierzyć, aw praktyce i tak miałbyś ogromne trudności z ekstrapolacją, ponieważ podczas szkolenia reagujesz na małą próbkę ograniczając swój model złożoność - i rozluźniłbyś to wraz ze wzrostem wielkości próby.
Szczegółowe informacje można znaleźć w naszym artykule: Beleites, C. and Neugebauer, U. i Bocklitz, T. and Krafft, C. and Popp, J .: Planowanie wielkości próby dla modeli klasyfikacji. Anal Chim Acta, 2013, 760, 25-33.
DOI: 10.1016 / j.aca.2012.11.007
zaakceptowano manuskrypt na arXiv: 1211.1323
Nigdy nie miałem nic bliskiego tym zaleceniom (dane spektroskopowe, również do zastosowań medycznych). To, co robię, to: bardzo dokładnie mierzę stabilność modelu w ramach procesu modelowania i weryfikacji.
źródło