Poniższy fragment pochodzi z wywiadu przeprowadzonego przez Schwager's Hedge Fund Market Wizzards (maj 2012 r.), Jaffraya Woodriffa, zarządzającego funduszem hedgingowym, który odnosi sukcesy:
Na pytanie: „Jakie są najgorsze błędy popełniane podczas eksploracji danych?”:
Wiele osób uważa, że są w porządku, ponieważ używają danych z próby do szkolenia i danych z próby do testowania. Następnie sortują modele na podstawie tego, jak działały na danych z próby i wybierają najlepsze do przetestowania na danych z próby. Ludzką tendencją jest przyjmowanie modeli, które nadal dobrze sobie radzą z danymi z próby i wybieranie tych modeli do handlu. Ten rodzaj procesu po prostu zamienia dane poza próbą w część danych szkoleniowych, ponieważ pozwala wybrać modele, które najlepiej działały w okresie poza próbą. Jest to jeden z najczęstszych błędów popełnianych przez ludzi i jeden z powodów, dla których eksploracja danych w typowym zastosowaniu przynosi straszne wyniki.
Ankieter pyta: „Co powinieneś zamiast tego zrobić?”:
Możesz szukać wzorców, w których przeciętnie wszystkie modele poza próbą nadal mają się dobrze. Wiesz, że dobrze sobie radzisz, jeśli średnia dla modeli poza próbą stanowi znaczący procent wyniku w próbie. Ogólnie rzecz biorąc, naprawdę osiągasz gdzieś, jeśli wyniki poza próbą stanowią więcej niż 50 procent próby. Model biznesowy QIM nigdy by się nie sprawdził, gdyby SAS i IBM budowały świetne oprogramowanie do modelowania predykcyjnego.
Moje pytania
Czy to ma jakiś sens? Co on ma na myśli? Czy masz jakieś wskazówki - a może nawet nazwę proponowanej metody i niektóre referencje? A może ten facet znalazł świętego Graala, którego nikt inny nie rozumie? Mówi nawet w tym wywiadzie, że jego metoda może potencjalnie zrewolucjonizować naukę ...
Odpowiedzi:
Czy to ma jakiś sens ? Częściowo.
Co on ma na myśli? Proszę go zapytać.
Czy masz jakieś wskazówki - a może nawet nazwę proponowanej metody i niektóre referencje?
Cross Validation. http://en.wikipedia.org/wiki/Cross-validation_(statistics)
A może ten facet znalazł świętego Graala, którego nikt inny nie rozumie? Nie.
On nawet mówi w tym wywiadzie, że jego metoda może potencjalnie zrewolucjonizować naukę ... Być może zapomniał zawierać odniesień do tego oświadczenia ...
źródło
Nie jestem pewien, czy będą jakieś inne „łobuzerskie” odpowiedzi, ale oto moje.
Cross Validation nie jest w żadnym wypadku „nowy”. Ponadto krzyżowej walidacji nie stosuje się, gdy zostaną znalezione rozwiązania analityczne. Na przykład nie używasz weryfikacji krzyżowej do oszacowania bety, używasz OLS lub IRLS lub innego „optymalnego” rozwiązania.
To, co postrzegam jako rażąco oczywistą lukę w cytacie, nie odnosi się do żadnego pojęcia rzeczywistego sprawdzania „najlepszych” modeli, aby sprawdzić, czy mają one sens. Ogólnie rzecz biorąc, dobry model ma sens na pewnym poziomie intuicyjnym. Wydaje się, że twierdzenie jest takie, że CV jest srebrną kulą dla wszystkich problemów z prognozowaniem. Nie ma również rozmowa się utworzenie na wyższym poziomie struktury modelu - używamy SVM , regresja Drzewa , Poprawa , Bagging , OLS , GLMS , GLMNS. Czy regularyzujemy zmienne? Jeśli tak to jak? Czy grupujemy zmienne razem? Czy chcemy solidności do rzadkości? Czy mamy wartości odstające? Czy powinniśmy modelować dane jako całość czy w kawałkach? Istnieje zbyt wiele podejść, aby podjąć decyzję na podstawie CV .
Innym ważnym aspektem jest to, jakie systemy komputerowe są dostępne? Jak są przechowywane i przetwarzane dane? Czy brakuje zaginięcia - jak to wyjaśnić?
A oto najważniejsze: czy mamy wystarczająco dobre dane, aby robić dobre prognozy? Czy są znane zmienne, których nie mamy w naszym zestawie danych? Czy nasze dane są reprezentatywne dla wszystkiego, co próbujemy przewidzieć?
źródło
Jego wyjaśnienie częstego błędu w eksploracji danych wydaje się rozsądne. Jego wyjaśnienie tego, co robi, nie ma sensu. Co ma na myśli, mówiąc: „Mówiąc ogólnie, naprawdę osiągasz cel, jeśli wyniki poza próbą stanowią ponad 50 procent próby”. Złe usta SAS i IBM też nie sprawiają, że wygląda bardzo elegancko. Ludzie mogą odnieść sukces na rynku bez zrozumienia statystyk, a częścią sukcesu jest szczęście. Błędem jest traktować odnoszących sukcesy biznesmenów, jakby byli guru prognozowania.
źródło
Rozumiem tutaj wzorce słów , że oznacza on różne warunki rynkowe. Naiwne podejście analizuje wszystkie dostępne dane (wszyscy wiemy, że więcej danych jest lepsze), aby wyszkolić najlepszy model dopasowania krzywej, a następnie uruchomić go na wszystkich danych i handlować nimi przez cały czas.
Bardziej skuteczni zarządzający funduszami hedgingowymi i handlowcy algorytmiczni wykorzystują swoją wiedzę rynkową. Jako konkretny przykład pierwsza pół godziny sesji giełdowej może być bardziej niestabilna. Dlatego wypróbują modele na wszystkich swoich danych, ale tylko przez tę pierwszą pół godziny i na wszystkich swoich danych, ale z wyłączeniem tej pierwszej pół godziny. Mogą odkryć, że dwa z ich modeli mają się dobrze w pierwszej połowie godziny, ale osiem z nich traci pieniądze. Podczas gdy po wykluczeniu tej pierwszej pół godziny, siedem ich modeli zarabia pieniądze, trzy tracą pieniądze.
Ale zamiast brać te dwa zwycięskie modele i wykorzystywać je w pierwszej połowie handlu, mówią: to zły dzień na handel algorytmiczny i wcale nie zamierzamy handlować. Przez resztę dnia będą używać swoich siedmiu modeli. Wydaje się, że w tamtych czasach łatwiej jest przewidzieć rynek dzięki uczeniu maszynowemu, więc modele te mają większe szanse na niezawodność w przyszłości. (Pora dnia nie jest jedynym wzorcem; inne są zwykle związane z wydarzeniami informacyjnymi, np. Rynek jest bardziej niestabilny tuż przed ogłoszeniem kluczowych danych ekonomicznych).
Taka jest moja interpretacja tego, co mówi; może to być całkowicie błędne, ale mam nadzieję, że nadal jest to przydatne dla kogoś do przemyślenia.
źródło
Jako specjalista ds. Finansów znam wystarczająco dużo kontekstu, aby oświadczenie nie zawierało żadnych dwuznaczności. Finansowe szeregi czasowe często charakteryzują się zmianami reżimu, załamaniami strukturalnymi i odchyleniem koncepcji, więc walidacja krzyżowa stosowana w innych branżach nie jest tak skuteczna w zastosowaniach finansowych. W drugiej części odnosi się do miernika finansowego, albo zwrotu z inwestycji na wskaźniku Sharpe'a (zwrot w liczniku), a nie MSE lub innej funkcji straty. Jeśli strategia w próbie przyniesie 10% zwrotu, to w realnym handlu może całkiem realistycznie wygenerować tylko 5%. „Rewolucyjna” część z pewnością dotyczy jego autorskiego podejścia analitycznego, a nie cytatów.
źródło